La course aux alternatives
Depuis 2017, l'architecture Transformer règne sur l'IA. Mais sa complexité en O(n²) pose problème : coûts exponentiels sur les longs contextes, consommation mémoire colossale. En 2025, plusieurs alternatives émergent.
Mixture-of-Recursions (MoR) : la proposition DeepMind
En décembre 2025, Google DeepMind, KAIST et Mila ont dévoilé MoR, une architecture qui promet :
- 2× la vitesse d'inférence par rapport aux Transformers
- 50% de réduction du cache KV
- Routage intelligent : les tokens simples sortent après un passage, les complexes recyclent
Le mécanisme clé : des blocs récursifs réutilisables remplacent l'empilement traditionnel de couches. Chaque token traverse maximum 4 cycles selon sa complexité.
State Space Models : Mamba en tête
L'alternative la plus mature vient des SSM (State Space Models) :
| Modèle | Avantage principal | Complexité |
|---|---|---|
| Mamba | Parallélisable, 100k tokens | O(n) |
| RWKV | Hybride RNN/Transformer | O(n) |
| Hyena | 100× plus rapide à 64k tokens | Sub-quadratique |
| RetNet | Inférence en temps constant | O(1) |
Architectures hybrides : le compromis gagnant
Jamba combine Transformer + Mamba + MoE : performances comparables à Llama-2 70B avec 2-7× plus de contexte et 3× le débit.
Qwen3-Next et Kimi Linear utilisent des ratios 3:1 entre attention linéaire (GatedDeltaNet) et attention standard.
Le verdict des benchmarks
Une étude de TU Munich est catégorique : aucun modèle sub-quadratique n'apparaît dans le top 10 LMSys. Les Transformers purs dominent toujours au frontier.
En revanche, à petite échelle (0.7-1.5B paramètres), RWKV7 et Samba surpassent significativement Llama. Le sweet spot des alternatives : edge computing et contextes très longs.
Tiny Recursive Model : 7M paramètres, résultats impressionnants
Surprise de l'année : un modèle de seulement 7 millions de paramètres atteint 45% sur ARC-AGI-1 et 8% sur ARC-AGI-2, rivalisant avec des modèles 1000× plus gros sur le raisonnement structuré.
Perspective 2026
Le remplacement total des Transformers semble improbable. La tendance va vers des architectures hybrides spécialisées : attention standard pour la qualité, alternatives sub-quadratiques pour l'efficience. La "mixture of architectures" devient le nouveau paradigme.