10 trillions de tokens, en accès libre
Nvidia a décidé de jouer une carte inattendue au CES 2026 : l'open source massif. Le fabricant de GPU publie l'une des plus grandes collections de données d'entraînement ouvertes au monde.
Le chiffre principal : 10 000 milliards de tokens d'entraînement linguistique, sous forme de corpus synthétique inspectable et réutilisable. Mais ce n'est qu'une partie du package :
- 500 000 trajectoires robotiques pour l'entraînement de robots
- 455 000 structures protéiques synthétiques pour la biologie computationnelle
- 100 To de données capteurs de véhicules autonomes
- 1 700+ heures de données de conduite autonome couvrant des géographies variées
- 11 000+ traces de workflows d'agents IA pour la sécurité agentique
Tout est publié sous licences ouvertes, disponible via GitHub et Hugging Face.
Nemotron 3 : la famille de modèles ouverts
En parallèle des données, Nvidia lance la famille Nemotron 3 — des modèles hybrides combinant trois architectures : Mamba (séquences efficaces), Transformer (raisonnement précis) et Mixture-of-Experts (passage à l'échelle).
Trois tailles :
- Nano — 30 milliards de paramètres, 3 milliards actifs par token. Disponible maintenant. 4× le débit de Nemotron 2 Nano, 60 % de tokens de raisonnement en moins. Tourne sur DGX Spark, H100, B200.
- Super — ~100 milliards de paramètres, 10 milliards actifs. Pour les applications multi-agents à faible latence. Prévu H1 2026.
- Ultra — ~500 milliards de paramètres, 50 milliards actifs. Moteur de raisonnement avancé pour les workflows complexes. Prévu H1 2026.
Tous partagent un contexte natif d'un million de tokens et utilisent le Latent MoE (4× plus d'experts au même coût d'inférence) et la prédiction multi-tokens (+2,4 % de précision).
Le twist : entraîné avec la concurrence
Détail savoureux : le corpus synthétique de Nemotron intègre des contributions de la communauté open source, dont Qwen d'Alibaba pour l'augmentation de données et DeepSeek R1 pour les datasets de raisonnement en maths et code. Nvidia utilise les modèles de ses concurrents chinois pour entraîner ses propres modèles — et le revendique.
Qui adopte
La liste des partenaires est longue : Accenture, Bosch, CrowdStrike, Cursor, Deloitte, Oracle, Palantir, Perplexity, Salesforce, ServiceNow, Siemens, Uber, Zoom. Nemotron Nano est déjà déployable via Baseten, DeepInfra, Fireworks, Together AI et OpenRouter.
Pourquoi Nvidia fait de l'open source
La stratégie est limpide : plus il y a de modèles ouverts de qualité, plus il faut de GPU pour les entraîner et les déployer. En publiant données et modèles, Nvidia crée la demande pour son propre hardware. L'open source n'est pas de la philanthropie — c'est du business development à l'échelle du trillion de tokens.