📰 L'actu
ARC-AGI-3 lance le premier benchmark interactif pour mesurer l'intelligence des agents IA : Le nouveau test propose des centaines d'environnements de jeux sans instructions ni règles (arcprize.org) où l'IA doit explorer, comprendre et s'adapter seule à travers des niveaux de difficulté croissante. Les humains obtiennent 100% contre 0,26% pour les meilleurs modèles, et ARC Prize 2026 met 2 millions de dollars en jeu pour combler cet écart.
Claude consomme les quotas plus vite en heures de pointe pour absorber la demande : Un ingénieur d'Anthropic a annoncé un ajustement des quotas (x.com) sur les sessions de 5 heures en semaine entre 13h et 19h GMT, tout en maintenant les limites hebdomadaires inchangées. Environ 7% des abonnés Pro seront affectés, provoquant une vague de mécontentement sur les réseaux sociaux autour de la fiabilité des offres payantes.
OpenAI ouvre un écosystème de plugins pour son agent de code Codex : Le système permet de distribuer des workflows réutilisables (developers.openai.com) sous forme de bundles installables combinant skills, intégrations d'applications et serveurs MCP dans un même package versionné. Cette architecture de marketplace, avec catalogue officiel, dépôts d'équipe et installations locales, positionne Codex comme une plateforme extensible sur le modèle des extensions VS Code.
Anthropic lance un mode autonome pour Claude Code avec détection d'injections de prompt : Le nouveau auto mode (anthropic.com) remplace les approbations manuelles par deux couches de défense : un classifieur de transcript tournant sur Sonnet 4.6 qui évalue chaque action, et une sonde anti-injection de prompt qui filtre les contenus hostiles avant qu'ils n'atteignent l'agent. Le système atteint 0,4% de faux positifs sur le trafic réel, tout en acceptant 17% de faux négatifs sur les actions dangereuses comme la suppression de branches distantes ou l'exploration de credentials.
OpenAI ferme définitivement Sora et annule son partenariat d'un milliard avec Disney : La plateforme de génération vidéo IA est complètement interrompue (cnbc.com) après seulement six mois d'exploitation, dans le cadre d'une stratégie de concentration sur les produits rentables avant l'IPO prévue. Cette décision stratégique signe également la fin de l'accord de licence Disney qui devait porter sur 200 personnages Marvel, Pixar et Star Wars.
slop is something that takes more human effort to consume than it took to produce. When my coworker sends me raw Gemini output he’s not expressing his freedom to create, he’s disrespecting the value of my time.
💡 L'éclairage de Mario Zechner
Un agent ne souffre jamais de son propre code
Mario Zechner, le créateur de pi, argumente qu'après un an d'agents de code en production, les dégâts commencent à se voir. AWS a connu une panne attribuée à du code généré par IA, qu'Amazon a d'abord contestée avant d'imposer en interne un reset de 90 jours. Microsoft, dont le CEO revendique 30% de code écrit par IA, a publié un billet sur la qualité de Windows qui ressemble à un aveu. Et des équipes de toutes tailles rapportent s'être "codées dans un coin" en déléguant trop à leurs agents.
Un développeur humain fait des erreurs, mais il en fait peu par jour, finit par apprendre de ses erreurs, et souffre quand la dette s'accumule. Un agent ne possède aucune de ces propriétés. Il répète les mêmes erreurs indéfiniment, produit du code à un rythme qu'aucune revue "humaine" ne peut suivre. Surtout, il ne ressent pas la douleur de la complexité qu'il engendre. Or c'est précisément cette douleur qui pousse un humain à nettoyer, simplifier, dire non. Des micro-erreurs anodines prises individuellement (duplication, abstractions inutiles, incohérences) se composent à une vitesse que les équipes humaines mettaient des années à atteindre. Avec des agents, quelques semaines suffisent.
Et le cercle vicieux s'auto-alimente : plus la base de code grossit, moins l'agent retrouve le code existant pertinent avant d'agir. Zechner appelle ça le "low recall" de la recherche agentique. L'agent ne trouve pas tout, donc il duplique, introduit des incohérences, et alimente la complexité qu'il peinera ensuite à réparer.
Sa prescription : garder la main sur l'architecture et les API, limiter le volume de code généré à ce qu'on peut réellement relire, et réserver les agents aux tâches dont la boucle de feedback est fermée, c'est-à-dire mesurable par une métrique claire.
La friction du code écrit à la main reste ce qui permet de comprendre un système et de le faire évoluer.
A human is a bottleneck. A human cannot shit out 20,000 lines of code in a few hours. Even if the human creates such booboos at high frequency, there's only so many booboos the human can introduce in a codebase per day
Give yourself time to think about what you're actually building and why. Give yourself an opportunity to say, fuck no, we don't need this.
Le format, c'est le quota
Le régime
Aujourd'hui, sur le groupe WhatsApp de Génération IA (et sur les réseaux sociaux), ça a grondé. Anthropic a annoncé un ajustement des quotas. Les limites hebdomadaires ne bougent pas, mais en heures de pointe, le compteur tourne plus vite. Environ 7% des abonnés Pro seraient touchés (selon Anthropic).
Autant, j'imagine bien que sur un compte gratuit ou Pro à 20$/mois, on puisse être régulièrement limité. Mais ceux qui ont un plan Max et qui se retrouvent souvent bloqués, ça m'interpelle un peu +.
Avec Benoît, on partage un compte Max - celui qui donne 20 fois plus que le Pro. Et on est très rarement bloqués (je crois que ça nous est arrivé une seule fois). À deux. Sur le même compte. Pourtant on utilise Claude tous les jours, beaucoup.
Mais on bosse essentiellement en texte. Du Markdown. Du code. Des fichiers .md. Peu d'images, peu de PDFs, pas de docx. Et je crois que c'est là que se joue une grande partie de la différence.
Un truc que beaucoup de gens oublient : quand vous envoyez un PDF à Claude, le texte est extrait ET chaque page est convertie en image. Double traitement. Double coût.
Résultat : 1 500 à 3 000 tokens par page de PDF. Un petit document de 3 pages ? ~7 000 tokens. Mais personne n'envoie des PDFs de 3 pages. On envoie le rapport de 50 pages. 100 000 tokens. Boom. Vous venez de cramer plus de la moitié de la fenêtre. Avant même d'avoir posé votre question.
Les screenshots, pareil. La formule officielle d'Anthropic : tokens = (largeur × hauteur) / 750. Un screenshot de 1000×1000 pixels, c'est ~1 300 tokens. Le poids du fichier n'y change rien - c'est la résolution qui compte. Ces extensions Chrome qui capturent des pages web pour les coller dans le chat ? Elles en prennent rarement une seule - elles enchaînent les captures, et chacune mange du quota.
Quand vous êtes sur un plan gratuit ou Pro, les limites sont vite atteintes. Chaque token compte. Et au-delà du quota, c'est aussi une question de performance - je vous en parlais avec la smart zone : moins la fenêtre est remplie, mieux le modèle travaille.
Si on répète sans arrêt de bosser en Markdown quand c'est possible, c'est pas pour le plaisir. Le Markdown, c'est ce qui encode le plus de sens avec le moins de tokens. Un # pour un titre, un ** pour de l'emphase, un - pour une liste - quelques caractères qui donnent de la structure au modèle sans peser. Le meilleur ratio signal/tokens qui existe.
PS : Et n'oubliez pas Sonnet. Vous n'êtes pas obligés de tout faire avec Opus. Sonnet couvre beaucoup d'usages du quotidien - et consomme beaucoup moins de votre quota.