Un trillion de paramètres, 40 milliards actifs
DeepSeek s'apprête à lancer V4 autour du 17 février 2026 — date choisie pour coïncider avec le Nouvel An lunaire chinois. Le modèle succède à V3 (671 milliards de paramètres) et repousse les limites : 1 000 milliards de paramètres au total, mais seulement ~40 milliards actifs par token grâce à l'architecture Mixture-of-Experts (MoE).
Trois innovations architecturales clés :
- Manifold-Constrained Hyper-Connections (mHC) — publiées le 31 décembre 2025, elles améliorent la propagation des gradients et l'utilisation de la capacité du modèle, particulièrement sur les tâches de code complexes.
- Engram Conditional Memory — publiée le 13 janvier 2026, cette technologie sépare la récupération statique de connaissances du raisonnement dynamique. Les connaissances factuelles sont déchargées en DRAM système au lieu de la mémoire GPU. Résultat : 97 % de précision sur le test Needle in a Haystack, contre 84,2 % pour la baseline.
- DeepSeek Sparse Attention (DSA) — supporte des fenêtres de contexte dépassant 1 million de tokens avec une réduction d'environ 50 % des coûts de calcul.
Le code comme terrain de conquête
Le positionnement de V4 est clair : dominer le coding. Les tests internes de DeepSeek revendiquent des performances supérieures à Claude Opus 4.5 (80,9 % sur SWE-bench) et GPT-5.2 sur les tâches de génération de code.
Concrètement, V4 promet du raisonnement multi-fichiers sur des codebases entières : compréhension des relations d'import/export, traçage des dépendances, diagnostic de bugs au niveau du repository entier, et maintien de la cohérence lors de refactorings à grande échelle. Le tout avec un contexte d'un million de tokens qui permet d'ingérer un projet complet en une seule passe.
Le prédécesseur V3.2-Exp avait atteint 66 % sur SWE-bench Verified. V4 vise les 80 %+.
Open-weight et hardware grand public
Comme V3 et R1 avant lui, V4 devrait être publié en open-weight sous licence MIT pour le code et une licence custom pour les poids (usage commercial autorisé). C'est la marque de fabrique DeepSeek : rendre accessible ce que les concurrents gardent propriétaire.
Côté matériel, l'architecture MoE avec ses 40 milliards de paramètres actifs permet de faire tourner V4 sur du hardware grand public : deux RTX 4090 ou une seule RTX 5090. Un modèle de classe GPT-5 sur une station de travail standard — intéressant pour les environnements air-gapped ou les développeurs qui préfèrent le déploiement local.
Le prix de l'inférence
DeepSeek promet un coût 10 à 40 fois inférieur aux concurrents occidentaux. Les estimations tablent sur moins de 1 dollar par million de tokens en entrée et 2 dollars en sortie — à comparer aux 5/25 dollars de Claude et 10/30 dollars de GPT.
Deux variantes sont prévues : V4 Flagship et V4 Lite.
Ce qu'il reste à prouver
Toutes les performances annoncées sont des tests internes. Aucune vérification indépendante n'a encore été réalisée. L'écart entre les benchmarks internes et la réalité d'utilisation a déjà surpris par le passé — dans les deux sens. La mi-février apportera les réponses.