Qu'est-ce qu'OLMo Hybrid ?

C'est un modèle de langage open source de 7 milliards de paramètres qui combine transformer et Gated DeltaNet (RNN linéaire). Il atteint les mêmes performances qu'OLMo 3 avec 49 % de tokens en moins.

Pourquoi une architecture hybride ?

Remplacer 75 % des couches d'attention par des couches DeltaNet rend le modèle plus efficient tout en conservant les avantages du transformer pour les tâches complexes. Le gain est de 2× en efficacité d'entraînement.

OLMo Hybrid est-il vraiment open source ?

Oui, Ai2 publie tout : code, poids, logs d'entraînement et rapport technique. Les checkpoints sont disponibles sur Hugging Face sous licence ouverte.

Sur quel hardware a-t-il été entraîné ?

Sur 512 GPU NVIDIA Blackwell (HGX B200) fournis par Lambda, en seulement 6,19 jours pour 3 000 milliards de tokens.

OLMo Hybrid : Ai2 sort un modèle 7B 2× plus efficient

5 mars 2026 2 min de lecture Paul Forcadel

Une architecture hybride transformer + RNN

L'Allen Institute for AI (Ai2) a publié le 5 mars 2026 OLMo Hybrid, un modèle de langage de 7 milliards de paramètres qui combine deux architectures : le transformer classique et le Gated DeltaNet, une variante de réseau neuronal récurrent linéaire.

Le principe : 75 % des couches d'attention sont remplacées par des couches DeltaNet, selon un schéma 3:1 — trois couches DeltaNet pour une couche d'attention multi-tête. Cette hybridation produit un modèle théoriquement plus expressif qu'un transformer pur ou un RNN pur seul.

2× plus efficient que son prédécesseur

Sur MMLU, le benchmark de référence en connaissances générales, OLMo Hybrid atteint le même score qu'OLMo 3 avec 49 % de tokens en moins — soit environ 2× l'efficacité d'entraînement. Sur les évaluations Common Crawl, le gain est de 35 % de tokens.

Les améliorations sont mesurables sur de nombreux axes :

MedQA (médecine) : +7,1 points (48,7 % vs 41,6 %)
MBPP (code) : +6,7 points (50,3 % vs 43,6 %)
MMLU STEM : +4,5 points (70,8 % vs 66,3 %)
RULER 64k (long contexte) : 85,0 vs 70,9 — un bond majeur

Entraîné en 6 jours sur GPU Blackwell

OLMo Hybrid a été entraîné en partenariat avec Lambda sur 512 GPU NVIDIA Blackwell (64 systèmes HGX B200). L'entraînement actif n'a duré que 6,19 jours pour 3 000 milliards de tokens, avec un taux de disponibilité de 97 % et une récupération médiane sous 4 minutes en cas d'interruption.

Le modèle utilise le même mix de données qu'OLMo 3 32B, pré-entraîné sur 6 000 milliards de tokens au total.

Entièrement ouvert, comme toujours

Fidèle à sa philosophie, Ai2 publie tout : code, poids du modèle, logs d'entraînement et rapport technique, sous licence ouverte. Les checkpoints sont disponibles sur Hugging Face.

OLMo Hybrid rejoint une vague de modèles hybrides — Samba, Nemotron-H, Qwen3-Next, Kimi Linear — qui explorent des alternatives au transformer pur pour gagner en efficacité.