Un virage stratégique pour Nvidia
Nvidia s'apprête à dévoiler lors de sa conférence GTC, du 16 au 19 mars 2026 à San Jose, un processeur d'inférence IA d'un genre nouveau. Issue du rachat de Groq Inc. pour 20 milliards de dollars en décembre 2025, cette puce hybride combine la technologie GPU de Nvidia avec les Language Processing Units (LPU) de Groq, conçues spécifiquement pour accélérer la phase de décodage des modèles de langage.
Une architecture radicalement différente
Là où les GPU classiques atteignent 30 à 40 % d'utilisation effective en inférence, les LPU de Groq reposent sur une architecture VLIW déterministe qui élimine les décisions à l'exécution. Résultat : une utilisation du compute proche de 100 %. La puce exploite de la mémoire SRAM empilée en 3D sur le die de calcul (procédé TSMC A16), offrant une bande passante mémoire interne de 80 TB/s — contre 3,35 TB/s pour le H100. Chaque LPU embarque environ 230 Mo de SRAM pour le stockage des poids.
OpenAI, premier client stratégique
OpenAI, insatisfait de la vitesse d'inférence des GPU actuels pour ChatGPT, a obtenu un accès privilégié au nouveau processeur. Le géant de l'IA a réservé 3 GW de capacité d'inférence dédiée — l'équivalent de trois centrales nucléaires — principalement pour alimenter Codex, sa plateforme de génération de code. Ce partenariat s'inscrit dans l'investissement massif de Nvidia pouvant atteindre 100 milliards de dollars dans OpenAI.
L'inférence, nouveau champ de bataille
Avec cette puce, Nvidia reconnaît que l'inférence nécessite une architecture distincte de l'entraînement. La génération séquentielle de tokens est limitée par la bande passante mémoire, pas par la puissance de calcul brute. En combinant les LPU pour le décodage et ses solutions CPX pour le prefill, Nvidia vise à dominer l'infrastructure d'inférence disaggrégée, face à la concurrence croissante d'AWS, Google Cloud et de startups comme Cerebras.
Ce qu'il faut retenir
Le GTC 2026 marquera un tournant dans la stratégie de Nvidia. En intégrant la technologie Groq, le géant des GPU admet que l'avenir de l'IA passe par des puces spécialisées. Avec OpenAI comme vitrine, cette nouvelle plateforme pourrait redéfinir les standards de performance et d'efficacité énergétique en inférence.