Pourquoi Nvidia a-t-elle racheté Groq ?

Nvidia a acquis Groq pour 20 milliards de dollars afin d'intégrer sa technologie LPU, spécialisée dans l'inférence IA avec une consommation énergétique bien inférieure aux GPU traditionnels.

Qu'est-ce qu'un LPU et en quoi diffère-t-il d'un GPU ?

Un Language Processing Unit (LPU) utilise une architecture déterministe et de la mémoire SRAM pour accélérer la génération de tokens. Il atteint 80 TB/s de bande passante contre 3,35 TB/s pour un GPU H100.

Quand cette puce sera-t-elle disponible ?

Nvidia prévoit de la dévoiler lors de la conférence GTC du 16 au 19 mars 2026 à San Jose. OpenAI est déjà positionné comme premier client avec un accès anticipé.

Quel rôle joue OpenAI dans ce projet ?

OpenAI est le client principal. L'entreprise a réservé 3 GW de capacité d'inférence dédiée, principalement pour alimenter Codex, sa plateforme de génération de code.

Nvidia fusionne GPU et Groq : une puce d'inférence dédiée au GTC

2 mars 2026 2 min de lecture Paul Forcadel

Un virage stratégique pour Nvidia

Nvidia s'apprête à dévoiler lors de sa conférence GTC, du 16 au 19 mars 2026 à San Jose, un processeur d'inférence IA d'un genre nouveau. Issue du rachat de Groq Inc. pour 20 milliards de dollars en décembre 2025, cette puce hybride combine la technologie GPU de Nvidia avec les Language Processing Units (LPU) de Groq, conçues spécifiquement pour accélérer la phase de décodage des modèles de langage.

Une architecture radicalement différente

Là où les GPU classiques atteignent 30 à 40 % d'utilisation effective en inférence, les LPU de Groq reposent sur une architecture VLIW déterministe qui élimine les décisions à l'exécution. Résultat : une utilisation du compute proche de 100 %. La puce exploite de la mémoire SRAM empilée en 3D sur le die de calcul (procédé TSMC A16), offrant une bande passante mémoire interne de 80 TB/s — contre 3,35 TB/s pour le H100. Chaque LPU embarque environ 230 Mo de SRAM pour le stockage des poids.

OpenAI, premier client stratégique

OpenAI, insatisfait de la vitesse d'inférence des GPU actuels pour ChatGPT, a obtenu un accès privilégié au nouveau processeur. Le géant de l'IA a réservé 3 GW de capacité d'inférence dédiée — l'équivalent de trois centrales nucléaires — principalement pour alimenter Codex, sa plateforme de génération de code. Ce partenariat s'inscrit dans l'investissement massif de Nvidia pouvant atteindre 100 milliards de dollars dans OpenAI.

L'inférence, nouveau champ de bataille

Avec cette puce, Nvidia reconnaît que l'inférence nécessite une architecture distincte de l'entraînement. La génération séquentielle de tokens est limitée par la bande passante mémoire, pas par la puissance de calcul brute. En combinant les LPU pour le décodage et ses solutions CPX pour le prefill, Nvidia vise à dominer l'infrastructure d'inférence disaggrégée, face à la concurrence croissante d'AWS, Google Cloud et de startups comme Cerebras.

Ce qu'il faut retenir

Le GTC 2026 marquera un tournant dans la stratégie de Nvidia. En intégrant la technologie Groq, le géant des GPU admet que l'avenir de l'IA passe par des puces spécialisées. Avec OpenAI comme vitrine, cette nouvelle plateforme pourrait redéfinir les standards de performance et d'efficacité énergétique en inférence.