10 milliards pour l'inférence
OpenAI a signé le 14 janvier 2026 un contrat de plus de 10 milliards de dollars avec Cerebras Systems pour acquérir jusqu'à 750 mégawatts de capacité de calcul sur trois ans (jusqu'en 2028). C'est le plus gros contrat d'infrastructure d'inférence IA jamais annoncé.
Le deal porte spécifiquement sur l'inférence — le processus par lequel les modèles répondent aux requêtes — et non sur l'entraînement. OpenAI sert désormais plus de 900 millions d'utilisateurs hebdomadaires et fait face à ce que ses dirigeants décrivent comme une pénurie sévère de capacité.
Pourquoi Cerebras ?
Cerebras se distingue par sa technologie wafer-scale : un processeur unique de la taille d'une assiette qui intègre calcul, mémoire et interconnexions sur une seule puce. Résultat : une inférence jusqu'à 15× plus rapide que les systèmes GPU traditionnels, en réduisant drastiquement les déplacements de données.
Les benchmarks parlent d'eux-mêmes : GPT-OSS-120B tourne à environ 3 000 tokens par seconde, et Llama 3.2-70B atteint 2 100 tokens/s — soit environ 16× plus rapide que les GPU les plus performants.
Sachin Katti d'OpenAI a précisé : « Cerebras ajoute une solution d'inférence dédiée à faible latence à notre plateforme. Cela signifie des réponses plus rapides, des interactions plus naturelles. »
Une diversification stratégique
Pour OpenAI, ce contrat diversifie sa dépendance à Nvidia. Pour Cerebras, c'est un tournant : l'entreprise tirait 87 % de son chiffre d'affaires du groupe émirati G42. Le deal avec OpenAI rééquilibre cette concentration avant une IPO prévue au premier semestre 2026, à une valorisation estimée à plus de 22 milliards de dollars.
Le déploiement
La capacité sera livrée par tranches à partir de 2026, avec un déploiement complet d'ici 2028. Cerebras dispose de data centers aux États-Unis et à l'international et continue d'étendre son empreinte. Les 750 MW couvriront les besoins d'inférence pour les agents IA, le chat vocal et les copilotes de code — les usages qui connaissent la plus forte croissance.
L'inférence, le nouveau nerf de la guerre
Ce deal illustre un basculement fondamental : après la course à l'entraînement (Stargate, clusters GB300), c'est l'inférence à grande échelle qui devient le goulot d'étranglement. Quand un milliard d'utilisateurs attendent des réponses en temps réel, la vitesse de génération de tokens compte autant que la taille du modèle.