📰 L'actu
Google intègre un agent autonome de navigation dans Chrome: La fonction "auto browse" basée sur Gemini 3 permet aux abonnés AI Pro et Ultra de déléguer des tâches multi-étapes (blog.google) comme la recherche de vols, le remplissage de formulaires ou la gestion d'abonnements. Google lance également l'Universal Commerce Protocol (UCP), un standard ouvert co-développé avec Shopify, Etsy et Target pour les transactions agentiques.
Les modèles IA chinois open-source gagnent du terrain chez les entreprises américaines: Les modèles Qwen d'Alibaba dépassent 700 millions de téléchargements (wired.com) et sont préférés aux alternatives propriétaires américaines pour leur efficacité et leur coût. Cette adoption illustre la compétitivité croissante des solutions IA chinoises sur le marché occidental.
Moonshot AI lance Kimi K2.5, alternative open-source aux modèles propriétaires: Le modèle chinois peut traiter simultanément texte, images et vidéos (kimi.com) et coordonner jusqu'à 100 agents parallèles pour exécuter des tâches complexes. Cette avancée multimodale s'ajoute à l'offre concurrentielle face aux géants technologiques américains.
Mistral lance Vibe 2.0, son agent de codage terminal-native: La mise à jour majeure permet de créer des subagents personnalisés (mistral.ai), d'ajouter des skills via slash-commands et de configurer des modes d'agent unifiés. Disponible sur Le Chat Pro (14,99$/mois) et Team (24,99$/seat), l'outil s'appuie sur Devstral 2 qui passe désormais en accès API payant.
Google analyse 98% de l'ADN humain non codant grâce à AlphaGenome: Le nouveau modèle IA peut analyser un million de lettres génétiques simultanément (deepmind.google) et prédire les effets de mutations responsables de maladies rares. Cette avancée pourrait améliorer le diagnostic génétique et la recherche médicale.
💡 L'éclairage de Jenny Wen
"Trust yourself, not the process"
Jenny Wen, Design Lead chez Anthropic et ancienne Director of Design chez Figma, remet en question le mantra "trust the process". Le design process traditionnel, avec ses personas, journey maps et brainstorms séquentiels, ne correspond plus à l'environnement actuel.
L'IA change la donne. Un PM peut produire un prototype fonctionnel plus vite qu'un designer ne rédige un "problem statement". Les rôles s'hybrident, les frontières entre fonctions s'effacent. Face au "AI slop" générable en un prompt, le craft redevient un différenciateur.
Wen observe que les meilleurs travaux qu'elle a vus partent de la solution, pas du problème. Exemple : Artifacts chez Anthropic, ce panneau latéral qui affiche du code interactif. Un chercheur a construit un prototype brut. Un designer l'a repéré, s'est enthousiasmé, a itéré. L'équipe a senti qu'il y avait "quelque chose". Aucun "problem statement" au départ. Artifacts a pourtant changé la perception de ce que l'IA pouvait faire.
Elle réhabilite aussi l'intuition, souvent dévalorisée face aux données. L'intuition ne relève pas du hasard mais d'un jugement rapide construit par accumulation : lire les feedbacks, assister aux sessions de recherche, surveiller les dashboards. Ce modèle mental permet de décider sans tout A/B tester.
Sa métaphore : le design process ressemble aux instructions IKEA, mais contrairement à un meuble, on ne sait pas si on construit une étagère ou un hot-dog. Si l'output est inconnu, les étapes ne peuvent pas être fixes.
La conclusion de Wen : la valeur du designer n'est plus de suivre un process mais de le créer à chaque projet. "Trust yourself, not the process."
Un constat qui dépasse peut-être le design.
One of the most common mistakes people make when evaluating the pace of AI research is to look at progress on one type of task and extrapolate it to all tasks that humans can do. AI progress is extremely vertical-specific. In the past year, verifiable domains and in particular code have shown fast progress, which does not extend to other domains. This is because the main driver of AI capabilities remains, to this day, the memorization and operationalization of past data, which can be generated in unlimited quantity in the case of verifiable domains.
Benoît et les MCP
Retour en smart zone ?
Il y a 15 jours, je vous parlais de la "dumb zone". Ce seuil à partir duquel votre fenêtre de contexte est tellement remplie que les performances de l'IA se dégradent. Le conseil : rester sous 40% de remplissage pour rester dans la "smart zone". 40%, c'est empirique hein, ça peut être 50%..., l'important c'est l'idée.
Avec Benoît, on partage une base de connaissances avec laquelle on interagit beaucoup avec Claude Code. Ces jours-ci, il s'est amusé à rajouter dessus des serveurs MCP : un serveur n8n, un serveur "gemini banana pro", un "google workspace"...
Moi..., je regardais ça d'un œil circonspect. Les MCP, c'est cool sur le papier. Un protocole standard, tu développes un serveur, n'importe quel client compatible peut l'utiliser. Mais en pratique, chaque serveur MCP rajoute des outils. Et parfois beaucoup d'outils. Et chaque outil consomme des tokens dans ta fenêtre de contexte.
Le serveur GitHub ? 91 outils, ~46 000 tokens. Un quart de la fenêtre de Claude. Rajoutez les outils de base de Claude Code et... bienvenue dans la dumb zone.
Je dis à Benoît : "Lance /context pour voir combien ça prend tout ça."
À ma surprise : ça ne prenait pas tant que ça.
Alors, j'ai creusé.
Anthropic a récemment modifié la manière dont Claude Code gère les MCP. Plutôt que de charger tous les outils d'un coup (et remplir votre zone de stupidité), ils ont mis en place un système de recherche dynamique.
Le mécanisme :
- Si vos outils MCP dépassent 10% de la fenêtre de contexte, Claude ne les charge plus automatiquement
- À la place, il "reçoit" un outil de recherche
- Quand il a besoin d'une fonctionnalité, il cherche l'outil pertinent et le charge à la demande
Selon leurs tests : forte réduction des tokens consommés, meilleure précision dans le choix des outils.
Simon Willison résume :
Context pollution is why I rarely used MCP. Now that it's solved, there's no reason not to hook up dozens or even hundreds of MCPs.
Deux leçons. Anthropic valide la dumb zone. Et les MCP redeviennent potentiellement praticables dans Claude Code. Reste à voir si la recherche dynamique tient ses promesses.
PS: Autre nouveauté, Claude Code affiche en permanence le nombre de tokens de votre conversation dans la barre de statut. Au moment où j'écris ces lignes : 51 695 tokens.
🍷 Un dernier pour la route