Aller au contenu
Intelligence Artificielle||3 sources

Alex Litzenberger crée un transformeur minimal à 36 paramètres pour additionner parfaitement dix chiffres

Alex Litzenberger a développé un transformeur à 36 paramètres qui additionne parfaitement des nombres à dix chiffres, en tête du classement AdderBoard. Ce modèle manuel prouve la capacité arithmétique minimale des architectures d’attention.
Alex Litzenberger a conçu le plus petit transformeur connu — un modèle à 36 paramètres seulement — capable d’additionner deux nombres à dix chiffres avec une précision de 100 %. Ce modèle à poids codés manuellement domine le classement du projet AdderBoard, mis à jour il y a trois jours. Ce défi provient de « Addition Under Pressure », où des modèles comme Claude Code (6 080 paramètres) et Codex (1 644 paramètres) ont été les premiers à relever l’addition de dix chiffres avec au moins 99 % de précision. Le dépôt AdderBoard, maintenu par Dimitris Papailiopoulos, suit les progrès dans deux catégories : les modèles entraînés par des algorithmes génériques comme SGD ou Adam, et les modèles à poids fixés analytiquement pour prouver la capacité de représentation. L’architecture de Litzenberger repose sur un décodeur à deux couches avec une dimension d’intégration de d=5, comportant 5 têtes plus 1 tête, un encodage positionnel ALiBi, une méthode d’attention linéaire sans biais, avec une pente de log adaptée à la base décimale, et des intégrations épars. Ce « constructive proof » démontre que les transformeurs, architectures neuronales basées sur l’attention qui ont révolutionné le traitement du langage naturel depuis 2017, peuvent représenter l’arithmétique sans apprentissage massif. Le classement encourage les innovations en formats de données, tokenisation, apprentissage curriculaire et recherche d’architecture. Les prochaines soumissions pourraient réduire encore le nombre de paramètres, affinant la compréhension des mécanismes internes des transformeurs.

3 sources

Article enrichi par l'IA

Cet article a été enrichi avec du contexte additionnel provenant des connaissances de l'IA (historique, comparaisons, données techniques). Les sources éditoriales restent la base factuelle.

Building a Minimal Transformer for 10-digit Addition

Source éditoriale·Alex Litzenberger Blog·28 févr. 2026

AdderBoard: Smallest transformer that can add two 10-digit numbers

Source éditoriale·GitHub / anadim

Background: Transformers as attention-based models since 2017; significance of minimal models for mechanistic interpretability and efficiency in arithmetic tasks

Contexte IA

Restez informé avec Morni

Créez un compte gratuit pour accéder aux articles complets, aux flux personnalisés et aux résumés générés par IA.