Le challenger chinois frappe encore
Le 1er décembre 2025, DeepSeek a publié deux modèles sous licence MIT : DeepSeek-V3.2 et sa variante raisonnement V3.2-Speciale. Performance niveau GPT-5, coût divisé par 16. Le tout en open source.
Architecture MoE à 685B paramètres
DeepSeek V3.2 utilise une architecture Mixture-of-Experts avec 256 experts par couche, dont seulement 8 activés par token (37B paramètres actifs sur 685B). Trois innovations clés :
- DeepSeek Sparse Attention (DSA) : indexation fine des contextes longs, -50 % de coût computationnel sans perte de qualité
- Routage sans loss auxiliaire : équilibrage par bias plutôt que par fonctions de perte concurrentes
- Fenêtre de 128K tokens : analyse de documents massifs et codebases complexes
Benchmarks : niveau olympiade
| Benchmark | DeepSeek V3.2 | GPT-5 | Gemini 3 Pro |
|---|---|---|---|
| AIME 2025 | 96,0 % | 94,6 % | 95,0 % |
| HMMT 2025 | 99,2 % | — | 97,5 % |
| SWE Multilingual | 70,2 % | 55,3 % | — |
| LiveCodeBench | 83,3 % | 84,5 % | — |
La variante Speciale obtient des médailles d'or à l'IMO, CMO, ICPC et IOI 2025, rivalisant avec Gemini 3 Pro.
16x moins cher
Un workload de 100K tokens in + 100K tokens out coûte 0,07 $ avec DeepSeek contre 1,13 $ avec GPT-5. Sur les opérations avec cache, l'avantage monte à 31x.
Le coût d'entraînement ? 5,5 millions de dollars, contre des estimations dépassant 100 millions pour les modèles concurrents.
Agents intégrés
Premier modèle DeepSeek à intégrer le raisonnement directement dans l'utilisation d'outils. Le post-entraînement agentique couvre plus de 1 800 environnements synthétiques et 85 000 instructions complexes.
L'éléphant dans la pièce
Malgré les restrictions d'export américaines limitant l'accès de DeepSeek aux GPUs NVIDIA de dernière génération, l'entreprise continue de produire des modèles qui rivalisent ou dépassent les alternatives occidentales. Un signal fort pour l'ensemble de l'industrie.