Le successeur de Blackwell entre en production
Nvidia a lancé Blackwell Ultra, la nouvelle génération de ses GPU pour data centers. Le B300 succède au B200 avec une promesse simple : 1,5× plus de performance pour le même format. Le rack GB300 NVL72 — 72 GPU et 36 CPU Grace dans un système refroidi par liquide — délivre 1,1 exaFLOPS en FP4.
Le chiffre qui fait parler : par rapport à la génération Hopper (H100/H200), Nvidia annonce un débit 50× supérieur par mégawatt et un coût par token réduit de 35×. L'ère de l'inférence efficace est officiellement ouverte.
Des specs qui repoussent les limites
Le B300 embarque 288 Go de HBM3e (contre 192 Go pour le B200 et 80 Go pour le H100), organisés en 8 stacks de 12 couches. La bande passante mémoire atteint 8 To/s. Côté calcul, les 640 Tensor Cores de 5ᵉ génération délivrent 15 PFLOPS en FP4 dense et 20 PFLOPS en sparse.
L'interconnexion NVLink 5 offre 1,8 To/s par GPU — le double de NVLink 4 — permettant de relier jusqu'à 576 GPU dans un fabric non bloquant. Le TDP grimpe à 1 400 W par GPU, contre 1 200 W pour le B200.
Déjà en production chez les hyperscalers
Les déploiements sont concrets. Microsoft Azure a mis en service le premier cluster à grande échelle : plus de 4 600 racks GB300 NVL72 pour les workloads OpenAI, avec 1 440 PFLOPS de calcul FP4 par rack. L'entraînement de modèles passe « de mois à semaines ».
CoreWeave affiche un gain de 6,5× sur l'inférence DeepSeek R1 par rapport aux H100, grâce à un parallélisme tenseur réduit de 16 à 4 voies. Nebius a inauguré en décembre 2025 le premier déploiement GB300 en Europe, depuis la Finlande. Oracle prévoit de dépasser 100 000 GPU Blackwell dans ses Superclusters.
L'inférence, nouveau champ de bataille
Le timing n'est pas un hasard. Les requêtes liées au code sont passées de 11 % à près de 50 % du trafic d'inférence en un an. Les agents IA et copilotes de code exigent à la fois une faible latence et des contextes longs — exactement ce que Blackwell Ultra optimise.
Pour les contextes de 128K tokens, le GB300 réduit le coût par token de 1,5× par rapport au GB200. Les fournisseurs d'inférence (Baseten, DeepInfra, Fireworks AI, Together AI) rapportent des réductions de coûts allant jusqu'à 10×.
Perspective : Rubin en ligne de mire
Blackwell Ultra n'est qu'une étape. Nvidia a déjà annoncé la plateforme Rubin, qui promet 10× le débit par mégawatt de Blackwell pour l'inférence mixture-of-experts. La course à l'efficacité énergétique de l'IA ne fait que commencer.