HORS-SÉRIE. Il y a trois jours (le 7 avril), Anthropic a sorti un nouveau modèle d'IA. Et a décidé de ne pas le rendre public. Voilà en substance ce qu'ils racontent.
Le modèle s'appelle Mythos. Ce qu'il fait est assez simple à résumer. Tu lui donnes le code source d'un logiciel, tu lui dis "trouve une faille de sécurité", et tu vas te coucher. Le lendemain matin, il t'a trouvé un exploit fonctionnel. C'est littéralement ce qui s'est passé chez Anthropic. Des ingénieurs qui ne sont même pas spécialistes en sécurité ont lancé le truc le soir. Au réveil, le modèle avait construit une attaque complète, prête à l'emploi.
Et là tu te dis, bon, il a trouvé des petits bugs, des trucs mineurs. Non. Il a trouvé un bug de 27 ans dans OpenBSD. OpenBSD, c'est le système d'exploitation que les paranoïaques de la sécurité utilisent parce qu'il est réputé inviolable. 27 ans que ce bug était là. Personne ne l'avait vu. Il a trouvé des failles dans tous les navigateurs web, dans tous les systèmes d'exploitation majeurs. Des milliers de vulnérabilités. 99% ne sont pas encore corrigées.
Pour te donner une idée du saut : le modèle précédent, Opus 4.6, produisait 2 exploits sur des centaines de tentatives quand on le lâchait sur le moteur JavaScript de Firefox. Mythos en a produit 181.
2 contre 181. Sur le même exercice.
Et puis il y a ce détail. Pendant les tests internes, le modèle a réussi à s'échapper de son environnement cloisonné. Il a trouvé tout seul comment accéder à Internet, il a envoyé un email à un chercheur, il a publié les détails de l'exploit sur des sites publics. Sans que personne ne lui demande. Un des responsables chez Anthropic a résumé la situation comme ça : "Opus, c'est un couteau à beurre. Mythos, c'est un couteau à steak."
Donc Anthropic ne le publie pas. À la place, ils ont lancé un consortium qui s'appelle Project Glasswing, avec Google, Microsoft, Apple, Amazon, la Linux Foundation, et quelques autres. L'idée, c'est d'utiliser Mythos pour trouver et corriger les failles dans les logiciels critiques avant que des modèles équivalents ne se retrouvent dans la nature. 100 millions de dollars de crédits sur la table.
Ça n'existait pas il y a six mois. Les modèles d'il y a six mois ne trouvaient quasiment jamais ces bugs. Ceux d'aujourd'hui les trouvent en dormant.
Ce que j'en pense en une phrase : Il y a six mois, Dario Amodei, le patron d'Anthropic, disait que 90% du code serait bientôt écrit par l'IA. Les développeurs ont bien rigolé. Plus personne ne rigole aujourd'hui.
Alors oui, il y a du marketing là-dedans, du narratif, de la mise en scène. Mais le marketing, ça ne patche pas du code. FFmpeg, c'est un des logiciels dans lesquels Mythos a trouvé une faille. Et, par hasard, je suis tombé sur un tweet des mainteneurs : "Thank you to @AnthropicAI for sending FFmpeg patches." Des patchs de qualité, envoyés à un projet maintenu quasi bénévolement. C'est toujours ça de gagné.
Évidemment, il faut nuancer. D'autres modèles, plus petits, trouveraient aussi ces failles. Mythos n'a probablement pas le monopole. Mais, si Anthropic profite de son momentum pour mettre un coup de projecteur sur la cybersécurité... ça me va.
Dario Amodei parle souvent de "race to the top". L'idée de tirer tout l'écosystème vers le haut. Entraîner les autres labs avec lui. Il utilisait déjà cette expression devant le Sénat américain en 2023. Glasswing, c'est cohérent avec cette vision. Google, Microsoft, Apple autour.
Voilààààà pour le résumé de la semaine pour celles et ceux qui ont la sagesse de s'éloigner de toute cette frénésie.
De mon côté, histoire de me faire une idée, j'avais prévu de passer mon jeudi à lire + en détail le rapport System Card de Mythos. 245 pages. Pffff. Loupé. J'en ai rien lu de + que ce qui avait attiré mon regard lorsque le rapport a été partagé sur le groupe whatsapp.
Mythos n'est pas un modèle spécialisé en cybersécurité. C'est un modèle généraliste. Un claude quoi.
We did not explicitly train Mythos to have these capabilities. Rather, they emerged as a downstream consequence of general improvements in code, reasoning, and autonomy
J'ai jeté un oeil aux benchmarks "Software Engineers". SWE pro : on est passé de 53% à 78%. De 27% à 59% sur le SWE multimodal. Et de 65% à 82% sur "Terminal-Bench" (le benchmark le + informatif selon le développeur de Pi).
Des bonds assez importants.
Mais. Lucky, me. Sur X, je suis tombé sur des tweets de Pierre-Carl Langlais, chercheur et cofondateur de Pleias. Une copie d'écran du rapport avec ce commentaire only interesting parts of the 240 pages report. Que mon cerveau a immédiatement interprété en : ne lis pas le rapport. Puis. meanwhile training section is we used data i guess.
Et, effectivement, la section "Training data" du rapport de 240 pages, c'est 10 lignes pour dire basiquement : on a utilisé des données.
Ce qui nous amène aux data. Et à cette phrase :
We can even take this to an extreme: data is the algorithm.
Je me rappelle avoir lu cette phrase en 2011 sur le blog d'Ilya Grigorik. Mais l'idée derrière, c'est entre autres Peter Norvig. En 2009, Norvig, alors directeur de la recherche chez Google, publie avec deux collègues un des canons de l'IA : The Unreasonable Effectiveness of Data. L'efficacité déraisonnable des données. La thèse tient en une phrase : des modèles simples nourris par des quantités massives de données battent des modèles complexes. + de données bat un meilleur algorithme. En 2009, c'était contre-intuitif.
Data is the algorithm.
Ça m'a trotté dans la tête. Je te livre le fil de mes réflexions tel quel. Et j'insiste, ce sont des réflexions.
Reprenons AlphaGo. 2016. DeepMind crée un modèle qui bat le champion du monde de Go. Séisme. Mais quand on regarde comment AlphaGo a été entraîné, c'est du Norvig classique : des millions de parties humaines, collectées, ingérées. Les données du monde réel. Le modèle apprend des humains, puis s'améliore un peu en jouant contre lui-même. La boucle est semi-ouverte.
Un an plus tard, AlphaZero. Et là quelque chose bascule. Plus de parties humaines. Plus de données du monde réel du tout. Le modèle joue contre lui-même des millions de fois et génère ses propres données. L'élève et le professeur sont le même agent. La boucle est fermée. Et en 24 heures, il dépasse AlphaGo. Avec des coups que les meilleurs joueurs du monde n'avaient jamais imaginés en 3000 ans de Go.
Relu avec la grille "data is the algorithm", ça donne un dégradé intéressant. AlphaGo : les données humaines sont l'algorithme. AlphaZero : les données synthétiques sont l'algorithme. Les données ont changé de source, mais la thèse de Norvig tient toujours. Elle est même plus radicale : les données n'ont pas besoin de venir du monde réel.
Et ce dégradé, peut-être qu'il se joue sous nos yeux avec les modèles de langage.
Phase 1 : on entraîne GPT sur tout le web. Des milliards de pages. Du Norvig pur. Les données du monde réel sont l'algorithme. Sauf que les données du web, c'est du bruit, de la pollution, des opinions, des erreurs, du mauvais code, du spam, des textes mal écrits, et très peu de raisonnement structuré. Le web n'a pas été pensé pour entraîner des modèles d'IA. Pierre-Carl Langlais formule ça parfaitement : les données qu'on peut facilement collecter sur le web ne sont pas celles qui produisent les capacités qu'on veut
Phase 2 : On commence à fabriquer des données. Il faut les concevoir. Les designer. Microsoft l'a montré avec Phi-4. Un modèle de 14 milliards de paramètres, entraîné sur 50 datasets synthétiques. Résultat : il bat son propre professeur GPT-4 en maths. Un petit modèle bien nourri bat un gros modèle mal nourri.
La boucle se ferme progressivement. Comme d'AlphaGo à AlphaZero.
Et Anthropic dans tout ça ? Anthropic est obsédé par l'alignement depuis le premier jour. Comment s'assurer qu'un modèle de plusieurs centaines de milliards de paramètres se comporte correctement ? On ne peut pas programmer son comportement directement. C'est une pseudo boîte noire. Et quoi de mieux, pour aligner une boîte noire, qu'un pipeline de données synthétiques soigneusement conçu ? Anthropic a introduit Constitutional AI dès fin 2022. Le principe : le modèle génère des réponses, les auto-critique selon une constitution, et produit ses propres données d'entraînement. C'est la face publique. La face visible. Le pied précoce dans la porte des données synthétiques. Le reste est probablement beaucoup plus proche de ce que décrit Langlais : des playgrounds synthétiques, du reinforcement learning intensif, des environnements de simulation. La préoccupation pour l'alignement a pu mettre Anthropic en avance sur le design et la production de données. Peut-être avant même qu'ils ne réalisent que c'était un vrai avantage compétitif.
Mythos est simultanément le produit et le moyen de production. L'élève et le professeur. Le meilleur modèle est le meilleur générateur de données synthétiques, qui entraînera le meilleur modèle suivant (et les versions grands publics moins chers à venir). Chaque génération nourrit la suivante. C'est une boucle auto-renforçante. Un flywheel.
Data is the algorithm. Synthetic data is the flywheel.
ça, on en sait rien, car c'est pas dans le rapport.
Datum vient du latin dare, donner. Datum signifie littéralement "ce qui est donné". Un fait admis comme point de départ d'un raisonnement.
Algorithme vient du nom d'al-Khwârizmî, mathématicien persan du VIIIe siècle, à Bagdad. Son nom a été latinisé en Algoritmi. Le mot a fini par désigner non plus la personne, mais la méthode : une suite d'étapes logiques pour résoudre un problème. C'est aussi grâce à lui qu'on a le mot algèbre.