Le coût d'utilisation de l'IA est en train de s'effondrer. Quatre fournisseurs d'inférence — Baseten, DeepInfra, Fireworks AI et Together AI — annoncent des réductions de 4× à 10× du coût par token en combinant les GPU NVIDIA Blackwell avec des modèles open source.
De 1 dollar à 5 centimes le million de tokens
Les chiffres parlent d'eux-mêmes. DeepInfra détaille la cascade de gains sur un modèle de 400 milliards de paramètres :
- Architecture dense sur GPU H200 (Hopper) : 1,00 $ par million de tokens
- Architecture MoE (Mixture of Experts) en FP8 sur Blackwell : 0,20 $ — 5× moins
- MoE en NVFP4 (format basse précision natif Blackwell) : 0,05 $ — 20× moins que le dense initial
Le secret : les modèles MoE n'activent qu'environ 17 milliards de paramètres par token sur les 400 milliards disponibles. Combiné au format NVFP4 de Blackwell, la charge de calcul et la mémoire requise chutent drastiquement.
Cas concrets : santé, gaming, voix
Sully.ai (santé) a migré de modèles propriétaires vers des modèles open source sur la plateforme Baseten/Blackwell. Résultat : -90 % sur les coûts d'inférence, +65 % de rapidité de réponse, et 30 millions de minutes rendues aux médecins — du temps auparavant consacré à la documentation administrative.
Latitude (AI Dungeon, 1,5 million d'utilisateurs actifs) utilise DeepInfra pour générer du contenu narratif en temps réel. Le coût par million de tokens est passé de 20 centimes (Hopper) à 5 centimes (Blackwell NVFP4).
Decagon (support client vocal) a réduit le coût par requête de 6× via Together AI, avec des temps de réponse sous les 400 millisecondes. Pour un assistant vocal, cette latence est la différence entre une conversation fluide et un robot pénible.
La recette à trois ingrédients
NVIDIA insiste : le hardware seul ne suffit pas. Les réductions de 4-10× nécessitent trois éléments combinés :
- GPU Blackwell — 2,5× plus de throughput par dollar que Hopper
- Stack logiciel optimisé — TensorRT-LLM et le framework d'inférence Dynamo
- Modèles open source de niveau frontier — qui rivalisent désormais avec les modèles propriétaires
C'est le troisième point qui change tout : les modèles open source (Llama, DeepSeek, Qwen, Mistral) ont atteint un niveau de performance comparable aux modèles fermés. Migrer de GPT-4 vers un modèle open source équivalent sur Blackwell peut diviser la facture par 10 sans perte de qualité mesurable.
Tokenomics : la nouvelle métrique
NVIDIA parle de « tokenomics » : le token devient l'unité fondamentale de l'économie IA. À mesure que les coûts baissent, de nouveaux usages deviennent viables — agents autonomes, IA vocale en temps réel, applications médicales à grande échelle. Et la prochaine génération, Vera Rubin, promet encore 10× de mieux que Blackwell sur les modèles MoE.