Une architecture hybride transformer + RNN
L'Allen Institute for AI (Ai2) a publié le 5 mars 2026 OLMo Hybrid, un modèle de langage de 7 milliards de paramètres qui combine deux architectures : le transformer classique et le Gated DeltaNet, une variante de réseau neuronal récurrent linéaire.
Le principe : 75 % des couches d'attention sont remplacées par des couches DeltaNet, selon un schéma 3:1 — trois couches DeltaNet pour une couche d'attention multi-tête. Cette hybridation produit un modèle théoriquement plus expressif qu'un transformer pur ou un RNN pur seul.
2× plus efficient que son prédécesseur
Sur MMLU, le benchmark de référence en connaissances générales, OLMo Hybrid atteint le même score qu'OLMo 3 avec 49 % de tokens en moins — soit environ 2× l'efficacité d'entraînement. Sur les évaluations Common Crawl, le gain est de 35 % de tokens.
Les améliorations sont mesurables sur de nombreux axes :
- MedQA (médecine) : +7,1 points (48,7 % vs 41,6 %)
- MBPP (code) : +6,7 points (50,3 % vs 43,6 %)
- MMLU STEM : +4,5 points (70,8 % vs 66,3 %)
- RULER 64k (long contexte) : 85,0 vs 70,9 — un bond majeur
Entraîné en 6 jours sur GPU Blackwell
OLMo Hybrid a été entraîné en partenariat avec Lambda sur 512 GPU NVIDIA Blackwell (64 systèmes HGX B200). L'entraînement actif n'a duré que 6,19 jours pour 3 000 milliards de tokens, avec un taux de disponibilité de 97 % et une récupération médiane sous 4 minutes en cas d'interruption.
Le modèle utilise le même mix de données qu'OLMo 3 32B, pré-entraîné sur 6 000 milliards de tokens au total.
Entièrement ouvert, comme toujours
Fidèle à sa philosophie, Ai2 publie tout : code, poids du modèle, logs d'entraînement et rapport technique, sous licence ouverte. Les checkpoints sont disponibles sur Hugging Face.
OLMo Hybrid rejoint une vague de modèles hybrides — Samba, Nemotron-H, Qwen3-Next, Kimi Linear — qui explorent des alternatives au transformer pur pour gagner en efficacité.