Aller au contenu principal
IA générative

Kimi K2.5 : 100 agents en parallèle, vidéo vers code, et 9× moins cher que Claude

27 janv. 2026 3 min de lecture Paul Forcadel
Kimi K2.5 : 100 agents en parallèle, vidéo vers code, et 9× moins cher que Claude

Un trillion de paramètres, 32 milliards actifs

Moonshot AI, startup chinoise, a lancé Kimi K2.5 le 27 janvier 2026 sous licence MIT modifiée. Le modèle utilise une architecture Mixture-of-Experts avec 1 000 milliards de paramètres au total mais seulement 32 milliards actifs par requête — 384 experts, soit 50 % de plus que DeepSeek V3.

La différence fondamentale avec la concurrence : K2.5 est nativement multimodal. Entraîné sur 15 000 milliards de tokens mêlant texte et images, il intègre un encodeur vision dédié (MoonViT, 400 millions de paramètres). La vision n'est pas un module ajouté après coup — elle fait partie de l'architecture de base.

Agent Swarm : 100 agents en parallèle

La fonctionnalité phare est l'Agent Swarm. Le modèle peut décomposer une tâche complexe et instancier dynamiquement jusqu'à 100 sous-agents spécialisés qui travaillent en parallèle, avec jusqu'à 1 500 appels d'outils simultanés. Le gain : 4,5× de réduction du temps d'exécution.

L'orchestrateur est entraîné via PARL (Parallel-Agent Reinforcement Learning), une méthode qui évite le « serial collapse » — la tendance des modèles à séquentialiser ce qui pourrait être parallélisé.

Quatre modes d'opération : Instant (réponses rapides), Thinking (raisonnement étendu), Agent (exécution autonome) et Agent Swarm (multi-agents).

De la vidéo au code

K2.5 excelle dans les tâches visuelles ancrées dans le code. Il peut regarder une vidéo de 90 secondes montrant la navigation sur un site web et en reconstruire le code complet — layout, structure, fonctionnalités. Il génère du React et du HTML production-ready à partir de maquettes, wireframes ou démonstrations vidéo.

Après génération, le système fait du débugage visuel autonome : il rend le code, compare le résultat à la maquette originale, identifie les écarts et itère jusqu'à satisfaction.

Benchmarks

Benchmark Kimi K2.5 Claude Opus 4.5
SWE-Bench Verified 76,8 % 80,9 %
LiveCodeBench 85,0 % 64,0 %
AIME 2025 96,1 %
MMMU Pro 78,5 %
BrowseComp 74,9 % 65,8 %

Claude domine sur SWE-Bench, mais K2.5 écrase la concurrence sur LiveCodeBench (85 % vs 64 %) et BrowseComp. Les benchmarks visuels (OCRBench 92,3 %, VideoMMMU 86,6 %) confirment la solidité multimodale.

9× moins cher

Le prix : 0,60 $ par million de tokens en entrée, 2,50 $ en sortie. Soit environ 9 fois moins cher que Claude Opus 4.5 et 5 fois moins que Claude Sonnet 5. Une suite de benchmarks complète coûte 0,27 $ avec K2.5 contre 1,14 $ avec Claude.

Le modèle est open source, déployable localement via vLLM, SGLang ou KTransformers, et disponible sur Hugging Face et NVIDIA NIM.

Partager cet article

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Parcourir par catégorie