Fuite Claude Mythos, GLM 5.1, ARC AGI 3 : la Semaine IA la Plus Folle

La semaine IA la plus folle - Claude Mythos, GLM 5.1, ARC AGI 3

Article de Kami

Il arrive parfois que l’actualité de l’IA concentre en une seule semaine ce qui prendrait d’habitude plusieurs mois à se déployer. Fin mars 2026, c’est exactement ce qui s’est passé. Une fuite explosive chez Anthropic, un modèle open source qui rivalise avec les meilleurs du marché, un nouveau benchmark qui remet tout en question, et des mises à jour majeures chez OpenAI, Google et Cursor. Voici le résumé complet d’une semaine qui restera dans l’histoire de l’IA.

La Fuite Anthropic : Claude Mythos et Capybara, les Deux Modèles qui Font Trembler la Concurrence

Fuite Anthropic Claude Mythos Capybara nouveaux modèles IA

Une erreur de configuration dans le CMS d’Anthropic a déclenché l’une des plus grandes fuites de l’histoire récente de l’IA. Environ 3 000 assets non publiés se sont retrouvés exposés, révélant l’existence de deux nouveaux modèles : Claude Mythos, nom interne d’un modèle d’une puissance inédite, et Capybara, son pendant commercial prévu sur un niveau de gamme entièrement supérieur à Opus.

Anthropic a rapidement confirmé l’information : le modèle est décrit en interne comme « de loin le modèle IA le plus puissant jamais développé par Anthropic ». Les premiers testeurs qui y ont eu accès ont rapporté des performances dans le domaine de la cybersécurité et du raisonnement académique qui dépassent largement tout ce que le laboratoire avait proposé jusqu’ici — à tel point que Fortune a relayé des inquiétudes sur les capacités potentiellement dangereuses du modèle.

Conséquence directe : Anthropic prépare un déploiement progressif et prudent. Pas de lancement grand public immédiat. Les rumeurs suggèrent qu’un modèle intermédiaire — Opus 5 ou Sonnet 5 — pourrait arriver en premier, comme une sorte de transition avant l’entrée en scène des deux nouvelles références. Si vous suivez les tendances autour de l’automatisation par l’IA, ce modèle s’annonce comme un accélérateur majeur. OpenAI travaille également sur un modèle interne baptisé « Spud », que certains insiders décrivent comme un saut qualitatif significatif.

GLM 5.1 : L’Open Source Agentique qui Rivalise avec les Modèles Propriétaires

L’équipe de Z.ai (ZhipuAI) a lancé cette semaine le GLM 5.1, un modèle open source agentique basé sur une architecture MoE (Mixture of Experts) à 744 milliards de paramètres. Le signal envoyé est clair : l’open source n’est plus là pour jouer dans la cour des petits.

Sur les benchmarks de codage, le GLM 5.1 affiche un score de 45,3 contre 47,9 pour Claude Opus — un écart infime qui aurait semblé impossible il y a encore six mois. Son orientation agentique est au cœur de la proposition : meilleure instruction suivante, raisonnement multi-étapes plus fiable, et capacités à exécuter des tâches longues sans perdre le fil. Point notable : le modèle reste lent dans ses inférences. Ce n’est pas encore un outil pour le temps réel. Mais pour des tâches profondes qui demandent du raisonnement et de l’autonomie, il s’impose comme l’une des références open source de 2026.

Gemini 3.1 Flash Live et les Plugins CodeX : le Temps Réel Prend le Contrôle

Gemini 3.1 Flash Live temps réel audio visuel IA

Google DeepMind a officiellement lancé le Gemini 3.1 Flash Live le 26 mars 2026. Ce modèle multimodal temps réel est conçu spécifiquement pour les agents vocaux et visuels : latence réduite, qualité améliorée, et watermarking SynthID intégré dès la sortie. Google a passé plus d’un an à raffiner non seulement le modèle, mais aussi toute l’infrastructure sous-jacente et l’expérience développeur. Le modèle peut comprendre en temps réel ce qu’il voit et entend simultanément — une avancée concrète au-delà de ce que Gemini 3.1 Pro avait déjà accompli sur les benchmarks.

De son côté, OpenAI a transformé CodeX en un véritable écosystème de plugins. L’IDE n’est plus un simple outil de complétion de code : c’est désormais une plateforme d’exécution complète. Une galerie de workflows est disponible — développement d’apps iOS, analyse de datasets, génération de rapports et de présentations — et chacun peut être lancé en un clic. Une réponse directe à Claude Code et aux autres outils agentiques, avec l’ambition claire de s’imposer comme la référence du développement assisté par IA.

ARC AGI 3 benchmark intelligence artificielle

ARC AGI 3 : Le Benchmark qui Remet les Compteurs à Zéro

Le ARC AGI 3 est arrivé cette semaine avec une ambition radicale : proposer enfin un benchmark que les IA ne peuvent pas tricher en mémorisant des patterns. Les règles sont simples — résoudre chaque tâche du premier coup, sans entraînement préalable. Les humains non entraînés y atteignent 100%. Les meilleurs modèles IA ? Moins de 1%.

Pour être précis, Gemini 3.1 Pro y obtient actuellement 0,37% — le meilleur résultat observé, mais aussi la confirmation que l’IA est encore très loin d’une véritable intelligence générale. Un prix de 2 millions de dollars attend le premier modèle capable d’égaler les performances humaines. Son focus sur le raisonnement agentique en environnement interactif — avec pour prochaine étape les jeux vidéo commerciaux en temps réel — en fait le benchmark le plus ambitieux de l’histoire de l’IA.

Claude Code, Sora et Cursor : Tout ce qui a Changé Cette Semaine

Claude Code Sora Cursor mises à jour semaine IA

La semaine a aussi été riche en mises à jour importantes. Claude Code a introduit la fonction Autofix : l’outil peut désormais corriger automatiquement les échecs de CI, répondre aux commentaires de review, et maintenir une PR verte sans intervention humaine. Claude Code continue d’évoluer à un rythme soutenu — un mode auto a également été activé, qui supprime les demandes de permission constantes grâce à un classificateur intégré distinguant les actions sûres des actions risquées. Une limite de session de 5 heures pendant les heures de pointe concerne environ 7% des utilisateurs lors des pics de charge.

Sora ferme ses portes. Lancée en septembre 2025, l’app de génération vidéo d’OpenAI est officiellement en train de s’arrêter. L’annonce a été faite le 24 mars 2026 — avec elle, le partenariat Disney estimé à 1 milliard de dollars est également annulé. OpenAI redirige ses ressources de calcul vers d’autres priorités, notamment le développement du modèle « Spud ».

Enfin, Cursor a été pris en flagrant délit de discrétion. Le modèle Composer 2, présenté comme un LLM « frontier level » développé en interne, s’est révélé être un Kimi K2.5 de Moonshot AI, fine-tuné maison. Cursor a fini par reconnaître publiquement la chose après qu’un utilisateur ait analysé le trafic API. Cette controverse illustre une tension croissante dans l’industrie entre transparence et enjeux marketing. D’autres mises à jour notables : Mistral a lancé Voxtral TTS, un modèle open-weight de synthèse vocale en 9 langues, et 11Labs a transformé son CLI en outil agent-first. Pour suivre l’ensemble de ces évolutions qui redéfinissent la frontière entre l’IA et les capacités humaines, 2026 s’annonce décisif.

0 Commentaires

Aucun commentaire pour le moment. Soyez le premier à commenter !

Laisser un commentaire Annuler

Envie de participer à la discussion ?

Rejoins la communauté KamiLabs pour commenter cet article, partager ton avis et interagir avec les autres membres !

💬 Commente les articles

⭐ Gagne de l'XP et des badges

🎮 Accède à des fonctionnalités exclusives

Créer mon compte gratuitement

Ne pas remplir si vous êtes humain

Votre commentaire sera aussi partagé sur le Discord

La Fuite Anthropic : Claude Mythos et Capybara, les Deux Modèles qui Font Trembler la Concurrence

GLM 5.1 : L’Open Source Agentique qui Rivalise avec les Modèles Propriétaires

Gemini 3.1 Flash Live et les Plugins CodeX : le Temps Réel Prend le Contrôle

ARC AGI 3 : Le Benchmark qui Remet les Compteurs à Zéro

Claude Code, Sora et Cursor : Tout ce qui a Changé Cette Semaine

Articles similaires

0 Commentaires

Laisser un commentaire Annuler

Envie de participer à la discussion ?