Intelligence Artificielle|il y a environ 3 heures|4 sources

Inception Labs lance Mercury 2, modèle de langage à raisonnement par diffusion ultrarapide

Inception Labs dévoile Mercury 2, un LLM à diffusion atteignant 1 009 jetons/seconde sur GPU Blackwell, bien plus rapide et abordable que les rivaux autoregressifs. Ses benchmarks de raisonnement rivalisent avec les leaders tout en réduisant radicalement la latence.

Inception Labs a lancé Mercury 2, un modèle de langage à raisonnement exploitant une architecture de diffusion, le 25 février 2026. Contrairement aux modèles autoregressifs classiques comme GPT-4 ou Claude, qui génèrent les jetons de texte un par un de gauche à droite, Mercury 2 affine un passage entier en parallèle via plusieurs itérations. Cette approche, inspirée des générateurs d’images comme Stable Diffusion, atteint 1 009 jetons par seconde sur les GPU NVIDIA Blackwell. Ce lancement remet en cause la domination des modèles autoregressifs dans les infrastructures d’agents IA en production. La latence s’accumule dans les chaînes d’appels multiples (raisonnement, planification, action), rendant les agents lents au-delà des chatbots simples. Mercury 2 réduit cette latence à 1,7 seconde en bout de chaîne, contre 14,4 secondes pour Gemini 3 Flash et 23,4 secondes pour Claude Haiku 4.5 avec raisonnement activé, tout en maintenant une qualité comparable sur les benchmarks. Les performances incluent 74 sur GPQA Diamond, 67 sur LCB, 38 sur SciCode, 71 sur IFBench, 91 sur AIME et 53 sur TAU. Le prix fixe le modèle à 0,25 dollar par million de jetons d’entrée et 0,75 dollar par million de sortie, soit moitié moins cher que Gemini 3 Flash en entrée et quatre fois en sortie. Cette vitesse change les compromis raisonnement-latence pour les déploiements à grande échelle. Inception Labs met l’accent sur les boucles d’agents et pipelines de récupération, où la latence composée freine les applications réelles. Les ingénieurs testent déjà Mercury 2 pour des charges de travail à 1 000 jetons/seconde.

4 sources

Article enrichi par l'IA

Cet article a été enrichi avec du contexte additionnel provenant des connaissances de l'IA (historique, comparaisons, données techniques). Les sources éditoriales restent la base factuelle.

Mercury 2 and the End of Autoregressive Monopoly: What Diffusion LLMs Mean for Production Agent Stacks

Source éditoriale·Dev.to·27 févr. 2026

Introducing Mercury 2

Source éditoriale·Inception Labs

Inception launches Mercury 2, the first diffusion-based language reasoning model

Source éditoriale·The Decoder

Contexte ajouté : explication des architectures autoregressives vs diffusion et historique des modèles de langage

Contexte IA

Restez informé avec Morni

Créez un compte gratuit pour accéder aux articles complets, aux flux personnalisés et aux résumés générés par IA.