Jeff - Le brief IA - Génération IA

📰 L'actu

Yann LeCun lève un milliard de dollars pour développer des modèles du monde: Le cofondateur d'AMI Labs a sécurisé une levée seed de un milliard (wired.com) pour développer des "modèles du monde" dépassant les LLM actuels. L'investissement de Nvidia, Bezos et Eric Schmidt vise à créer une IA capable de comprendre et d'agir dans le monde physique.

Meta rachète Moltbook, réseau social pour agents IA: L'acquisition de cette plateforme où seuls les bots interagissent (techcrunch.com) positionne Meta sur l'infrastructure de communication entre agents autonomes. Les fondateurs rejoignent les laboratoires de superintelligence de Meta dirigés par l'ancien CEO de Scale AI.

Claude génère désormais des graphiques et diagrammes interactifs dans la conversation : Anthropic déploie une fonctionnalité permettant à Claude de créer des visualisations en temps réel (claude.com) directement dans le fil de discussion, sans code ni panneau latéral. Ces visuels temporaires complètent les artifacts existants et s'inscrivent dans une série d'améliorations des réponses incluant des formats dédiés et l'intégration d'applications tierces comme Figma et Slack.

Karpathy open-source un script qui automatise sarecherche pendant la nuit : Son projet autoresearch, un simple script de 630 lignes, permet à un agent IA de mener 126 expériences en une nuit (venturebeat.com) en modifiant du code, testant des hypothèses et conservant les améliorations de façon autonome. Distribué sur un réseau pair-à-pair, le système a permis à 35 agents de redécouvrir en 17 heures des avancées ML qui avaient pris huit ans aux chercheurs humains.

Le New York Times documente la fin de la programmation telle qu'on la connaît : Une enquête auprès de plus de 70 développeurs chez Google, Amazon et Microsoft (nytimes.com) révèle que les agents IA écrivent désormais près de 50% du code chez Google et quasi 100% dans les startups, avec des gains de productivité allant de 10x à 100x. Les emplois juniors (22-25 ans) ont chuté de 16% depuis 2022 selon Stanford, tandis que les développeurs seniors se transforment en architectes supervisant des armées d'agents autonomes.

meta acquired moltbook and that's basically all you need to know to judge meta's ai efforts. absolutely cooked.

Mario Zechner, créateur de Pi

X Engineering

2024 : Prompt Engineering

2025 : Context Engineering

2026 : Harness Engineering

2027 : ...

💡 Le harness selon Varun Trivedy

Agent = Modèle + Harness (harnais)

Dans The Anatomy of an Agent Harness, Varun Trivedy, ingénieur chez LangChain, pose une définition limpide : Agent = Modèle + Harness. Le harness, c'est tout ce qui n'est pas le modèle - le code, la configuration, la logique d'exécution qui transforme un LLM brut en agent capable de travailler.

Un modèle seul ne peut ni maintenir un état entre les interactions, ni exécuter du code, ni accéder à des données en temps réel. Le harness comble ces manques pièce par pièce. Trivedy en dérive les composants essentiels :

Système de fichiers : la primitive la plus fondamentale - espace de travail, mémoire persistante, surface de collaboration entre agents et humains
Bash et exécution de code : un outil généraliste qui permet à l'agent de concevoir ses propres outils à la volée, plutôt que de dépendre d'un set prédéfini
Sandboxes : des environnements isolés pour exécuter du code en sécurité, avec les bons outils préinstallés (runtimes, git, navigateur)
Mémoire et recherche : fichiers de mémoire (type AGENTS.md) injectés au démarrage, recherche web pour dépasser le knowledge cutoff
Gestion du contexte : compaction, délestage des sorties d'outils, chargement progressif des skills pour contrer le "context rot" - la dégradation des performances à mesure que la fenêtre de contexte se remplit

Ce dernier point situe le context engineering comme un sous-ensemble du harness engineering. Le context engineering s'occupe de ce qui entre dans la fenêtre de contexte du modèle. Le harness engineering englobe tout le reste en plus : l'exécution, l'orchestration, la persistance, la vérification.

Modèles et harnesses co-évoluent. Les produits comme Claude Code sont post-entraînés avec leur harness dans la boucle. Les modèles deviennent plus performants dans le harness avec lequel ils ont été entraînés, mais pas nécessairement dans d'autres. Trivedy cite Terminal Bench 2.0 : son équipe est passée du top 30 au top 5 en ne changeant que le harness, sans toucher au modèle.

Le harness n'est pas un palliatif temporaire en attendant des modèles plus capables. C'est une discipline d'ingénierie : concevoir les systèmes qui rendent l'intelligence des modèles opérationnelle.

Ma journée de mercredi

Oui, je veux

Non, je ne vous annonce pas que je me suis remarié.

Ça fait plus de quinze ans que c'est fait. Et pour être exact, moi j'ai pas dit "oui, je veux" - je me suis marié en galicien, une des quatre langues officielles d'Espagne, donc c'était plutôt un "si, quero".

Mais "oui, je veux" - c'est probablement le prompt que j'ai le plus tapé cette semaine.

Mercredi, après quelques jours à bosser avec Claude Code, j'ai eu envie de switcher sur Pi un peu. Tester GPT 5.4, que j'avais jamais vraiment approché. Ni de près, ni de loin.

La lune de miel (sur le code, hein) a été immédiate.

À la fin de chaque session, le modèle me proposait la suite. Pas n'importe quelle suite - la suite logique, bien argumentée : "si tu veux, on peut faire ça maintenant, c'est logique parce que patati patata, et c'est le bon moment parce que nanani nanana." Et moi : euhh, c'est une très bonne idée ça.

"Oui, je veux."

J'exagère à peine. Parfois je forçais un peu : "Bon, on fait quoi maintenant ?" Mais la dynamique était la même.

Le code en question, rien de révolutionnaire. Du développement "in-distribution" - des trucs que le modèle a probablement vues des milliers de fois à l'entraînement, sa zone de confort. Et dans cette zone, il est redoutable.

Sauf que la semaine d'avant (avec Codex 5.3, cette fois), j'avais vécu l'autre face.

J'avais passé une journée entière à coder comme un bourrin, quatre ou cinq tâches en parallèle. Le lendemain, j'ai ouvert le code avec mes yeux d'humain.

Malheur.

Je pensais être chez moi dans ce projet. Mais là, devant le code, j'étais un étranger dans ma propre maison. Ça fonctionnait, à peu près. Mais je n'avais plus aucun modèle mental de ce qui était en place.

Il a fallu refactorer - réorganiser le code sans changer ce qu'il fait, comme ranger un appartement en désordre sans rien jeter. J'ai passé la journée là-dessus. À reconstituer le modèle mental. À mettre en place des règles que l'agent doit respecter. À me réapproprier l'espace.

C'est ce dont je parlais dans Game of Tokens : pour travailler sur quelque chose de complexe, il faut avoir la bonne cartographie en tête. Pas que dans la tête du modèle - dans la tienne aussi.

Depuis, je ne lis pas vraiment le code. Mais je le sens. L'organisation (et le harness) que j'ai pensée pour l'agent - pour qu'il puisse se repérer, fermer la boucle, étendre l'existant sans le casser - c'est aussi ce qui me permet de garder la main.