Intelligence Artificielle||4 sources
Inception Labs lance Mercury 2, modèle de langage à raisonnement par diffusion ultrarapide
Inception Labs dévoile Mercury 2, un LLM à diffusion atteignant 1 009 jetons/seconde sur GPU Blackwell, bien plus rapide et abordable que les rivaux autoregressifs. Ses benchmarks de raisonnement rivalisent avec les leaders tout en réduisant radicalement la latence.
Inception Labs a lancé Mercury 2, un modèle de langage à raisonnement exploitant une architecture de diffusion, le 25 février 2026. Contrairement aux modèles autoregressifs classiques comme GPT-4 ou Claude, qui génèrent les jetons de texte un par un de gauche à droite, Mercury 2 affine un passage entier en parallèle via plusieurs itérations. Cette approche, inspirée des générateurs d’images comme Stable Diffusion, atteint 1 009 jetons par seconde sur les GPU NVIDIA Blackwell. Ce lancement remet en cause la domination des modèles autoregressifs dans les infrastructures d’agents IA en production. La latence s’accumule dans les chaînes d’appels multiples (raisonnement, planification, action), rendant les agents lents au-delà des chatbots simples. Mercury 2 réduit cette latence à 1,7 seconde en bout de chaîne, contre 14,4 secondes pour Gemini 3 Flash et 23,4 secondes pour Claude Haiku 4.5 avec raisonnement activé, tout en maintenant une qualité comparable sur les benchmarks. Les performances incluent 74 sur GPQA Diamond, 67 sur LCB, 38 sur SciCode, 71 sur IFBench, 91 sur AIME et 53 sur TAU. Le prix fixe le modèle à 0,25 dollar par million de jetons d’entrée et 0,75 dollar par million de sortie, soit moitié moins cher que Gemini 3 Flash en entrée et quatre fois en sortie. Cette vitesse change les compromis raisonnement-latence pour les déploiements à grande échelle. Inception Labs met l’accent sur les boucles d’agents et pipelines de récupération, où la latence composée freine les applications réelles. Les ingénieurs testent déjà Mercury 2 pour des charges de travail à 1 000 jetons/seconde.
4 sources
Article enrichi par l'IA
Cet article a été enrichi avec du contexte additionnel provenant des connaissances de l'IA (historique, comparaisons, données techniques). Les sources éditoriales restent la base factuelle.
Mercury 2 and the End of Autoregressive Monopoly: What Diffusion LLMs Mean for Production Agent Stacks
Source éditoriale·Dev.to·27 févr. 2026
Introducing Mercury 2
Source éditoriale·Inception Labs
Inception launches Mercury 2, the first diffusion-based language reasoning model
Source éditoriale·The Decoder
Contexte ajouté : explication des architectures autoregressives vs diffusion et historique des modèles de langage
Contexte IA