Recherche

Après les Transformers : MoR, Mamba et les architectures sub-quadratiques

10 déc. 2025 3 min de lecture Paul Forcadel
Après les Transformers : MoR, Mamba et les architectures sub-quadratiques

La course aux alternatives

Depuis 2017, l'architecture Transformer règne sur l'IA. Mais sa complexité en O(n²) pose problème : coûts exponentiels sur les longs contextes, consommation mémoire colossale. En 2025, plusieurs alternatives émergent.

Mixture-of-Recursions (MoR) : la proposition DeepMind

En décembre 2025, Google DeepMind, KAIST et Mila ont dévoilé MoR, une architecture qui promet :

  • 2× la vitesse d'inférence par rapport aux Transformers
  • 50% de réduction du cache KV
  • Routage intelligent : les tokens simples sortent après un passage, les complexes recyclent

Le mécanisme clé : des blocs récursifs réutilisables remplacent l'empilement traditionnel de couches. Chaque token traverse maximum 4 cycles selon sa complexité.

State Space Models : Mamba en tête

L'alternative la plus mature vient des SSM (State Space Models) :

Modèle Avantage principal Complexité
Mamba Parallélisable, 100k tokens O(n)
RWKV Hybride RNN/Transformer O(n)
Hyena 100× plus rapide à 64k tokens Sub-quadratique
RetNet Inférence en temps constant O(1)

Architectures hybrides : le compromis gagnant

Jamba combine Transformer + Mamba + MoE : performances comparables à Llama-2 70B avec 2-7× plus de contexte et 3× le débit.

Qwen3-Next et Kimi Linear utilisent des ratios 3:1 entre attention linéaire (GatedDeltaNet) et attention standard.

Le verdict des benchmarks

Une étude de TU Munich est catégorique : aucun modèle sub-quadratique n'apparaît dans le top 10 LMSys. Les Transformers purs dominent toujours au frontier.

En revanche, à petite échelle (0.7-1.5B paramètres), RWKV7 et Samba surpassent significativement Llama. Le sweet spot des alternatives : edge computing et contextes très longs.

Tiny Recursive Model : 7M paramètres, résultats impressionnants

Surprise de l'année : un modèle de seulement 7 millions de paramètres atteint 45% sur ARC-AGI-1 et 8% sur ARC-AGI-2, rivalisant avec des modèles 1000× plus gros sur le raisonnement structuré.

Perspective 2026

Le remplacement total des Transformers semble improbable. La tendance va vers des architectures hybrides spécialisées : attention standard pour la qualité, alternatives sub-quadratiques pour l'efficience. La "mixture of architectures" devient le nouveau paradigme.

Partager cet article

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Parcourir par catégorie

Newsletter

Recevez les actus IA directement dans votre boîte mail.

Suivez-nous

Retrouvez-nous sur les réseaux pour ne rien rater.