Le plus gros modèle open source européen
Mistral AI a dévoilé sa famille Mistral 3, marquant une nouvelle étape dans la course aux modèles ouverts. Le flagship, Mistral Large 3, est un modèle sparse Mixture-of-Experts (MoE) de 675 milliards de paramètres totaux, dont seulement 41 milliards sont actifs par token — un ratio de 16:1 qui permet de stocker les connaissances d'un modèle dense de 100B+ tout en maintenant des coûts d'inférence proches d'un modèle de 40-50B. Le tout entraîné sur 3 000 GPU NVIDIA H200 et publié sous licence Apache 2.0.
Des performances de haut vol
Sur le leaderboard LMArena, Mistral Large 3 débute au #2 des modèles open source non-reasoning (Elo ~1418), #6 tous modèles OSS confondus. Les benchmarks parlent : 85,5 % sur MMLU (compréhension multilingue), 92 % sur HumanEval (code) en pass@1, et un support natif de plus de 80 langages de programmation. Le contexte window de 256 000 tokens est le plus long de sa catégorie. Le modèle intègre un encodeur vision de 2,5 milliards de paramètres pour la compréhension d'images native et supporte plus de 40 langues.
Un prix qui change la donne
C'est sur le rapport qualité-prix que Mistral Large 3 frappe le plus fort. À environ 0,50 $/1,50 $ par million de tokens (input/output), le modèle coûte environ 80 % de moins que GPT-4o pour des performances comparables sur les tâches généralistes. Pour les entreprises, cela signifie des budgets IA divisés par cinq sur les workflows de code, de traduction et d'analyse documentaire. HSBC a déjà signé un partenariat multi-année couvrant la détection de fraude, le traitement du crédit et 20 000 workflows développeurs.
Ministral : l'IA dans le navigateur
La famille Mistral 3 inclut également trois modèles denses compacts — Ministral 3B, 8B et 14B — avec des variantes base, instruct et reasoning. Le Ministral 14B atteint 85 % sur AIME '25, rivalisant avec des modèles bien plus grands. Le Ministral 3B, compatible WebGPU, tourne directement dans un navigateur sans serveur — une première pour un modèle de cette qualité.
Un gap à combler et des ambitions immenses
La communauté a noté un vide entre le 14B et le 675B — pas de modèle dans la tranche 80-400B qui satisferait les usages intermédiaires. Mais Mistral ne compte pas s'arrêter là : avec un récent financement de 1,7 milliard de dollars pour une valorisation de 11,7 milliards, la startup française prévoit de déployer un cluster de calcul six fois plus grand en 2026. L'écosystème a immédiatement suivi : vLLM, llama.cpp, Ollama et LM Studio supportaient le modèle dès le jour du lancement.