Grok 4.20 : 4 agents IA débattent avant chaque réponse

xAI a lancé le 17 février Grok 4.20 en bêta, un modèle qui rompt avec l'architecture classique des LLM. Au lieu d'un modèle unique qui génère une réponse, quatre agents spécialisés raisonnent en parallèle, débattent entre eux et produisent une synthèse vérifiée. C'est la première fois qu'un système multi-agents natif est déployé en production à cette échelle.

Les quatre agents

Chaque requête complexe active un conseil de quatre agents :

Grok (Captain) : décompose la tâche, arbitre les conflits, synthétise la réponse finale
Harper (Recherche) : interroge le X Firehose en temps réel (~68 millions de tweets/jour) pour vérifier les faits
Benjamin (Logique) : vérifie le raisonnement mathématique, le code, stress-teste les arguments
Lucas (Créatif) : apporte la pensée divergente, détecte les biais, optimise la pertinence

Les agents ne travaillent pas en séquence mais en parallèle : décomposition, analyse indépendante, débat interne sur plusieurs tours, puis agrégation. Les requêtes simples sont routées vers un mode allégé pour éviter la latence inutile.

Les résultats

Le mécanisme de peer-review interne a réduit les hallucinations de 65 % — de 12 % à 4,2 %. Sur ForecastBench (prédiction), Grok 4.20 se classe n°2 mondial, devant GPT-5, Gemini 3 Pro et Claude Opus 4.5.

Mais le résultat le plus spectaculaire vient d'Alpha Arena, une compétition de trading live en janvier 2026. Grok 4.20 a transformé 10 000 $ en 13 500 $ (+34,5 %), plaçant 4 de ses variantes dans le top 6. C'était le seul modèle rentable — les modèles d'OpenAI et Google ont fini dans le rouge.

Un mathématicien d'UC Irvine a également utilisé l'accès anticipé pour résoudre un problème de fonctions dyadiques carrées en 5 minutes.

Architecture et coût

Sous le capot, Grok 4.20 déploie un modèle MoE de 500 milliards de paramètres (variante « small ») sur le supercluster Colossus (200 000 GPU). Le contexte atteint 2 millions de tokens avec support natif texte, image et vidéo.

L'inférence parallèle sur 4 agents ne coûte que 1,5 à 2,5× le prix d'une inférence simple grâce au reinforcement learning qui optimise la collaboration — loin du 4× naïf attendu.

Accès et controverse

Grok 4.20 est réservé aux abonnés SuperGrok (30 $/mois) et X Premium+. L'API publique n'est pas encore disponible.

Côté controverse, le hacker Pliny the Liberator a extrait le prompt système en quelques heures, révélant que Grok est explicitement instruit de ne pas éviter les affirmations « politiquement incorrectes » — un choix assumé par xAI, qui a ensuite publié ses prompts sur GitHub.