ARC-AGI-2 : le benchmark qui humilie les modèles frontier

24 mars 2025 2 min de lecture Paul Forcadel

Un nouveau défi pour l'intelligence artificielle

Le 24 mars 2025, l'ARC Prize Foundation a lancé ARC-AGI-2, la deuxième édition du benchmark conçu pour mesurer l'intelligence fluide des systèmes IA. Créé par François Chollet (créateur de Keras) et Mike Knoop, ce test évalue la capacité à résoudre des problèmes inédits, pas la mémorisation.

Le fossé humain-IA exposé

Les résultats sont sans appel :

Système	ARC-AGI-1	ARC-AGI-2
Humains	~100%	75%
o3 (Medium)	53%	3%
o3-mini (High)	34.5%	3%
Claude 3.7 (8K)	21.2%	0.9%

Les modèles qui performaient bien sur ARC-AGI-1 s'effondrent sur la v2. Même o3 d'OpenAI, présenté comme une avancée majeure en raisonnement, chute de 53% à 3%.

Pourquoi c'est si difficile ?

ARC-AGI-2 introduit des défis inédits :

Raisonnement compositionnel : plusieurs règles interagissent simultanément
Raisonnement multi-étapes : les sorties dépendent d'états intermédiaires
Symboles en contexte : interpréter des significations définies dans la tâche
Règles conditionnelles : logique variable selon le contexte

Le benchmark utilise des grilles de 1×1 à 30×30 avec 10 couleurs. Les humains résolvent les tâches en 2,2 minutes en médiane.

Validation scientifique rigoureuse

407 participants humains ont été testés dans des sessions contrôlées entre novembre 2024 et mai 2025. Fait notable : aucune corrélation entre l'expérience technique (programmation, maths) et les performances. Le test mesure vraiment l'intelligence générale.

ARC Prize 2025 : 1 million de dollars en jeu

1 455 équipes ont participé avec 15 154 soumissions. Résultats :

Grand Prix (85% requis) : 700 000$ — non attribué
1er Score : NVARC avec 24.03% — 25 000$
1er Paper : Tiny Recursive Model (7M paramètres, 45% ARC-AGI-1, 8% ARC-AGI-2) — 50 000$

La percée GPT-5.2

Fin 2025, GPT-5.2 a atteint ~54% sur ARC-AGI-2, doublant les performances précédentes. Mais comme le rappelle Chollet : les humains résolvent 100% des tâches. Le chemin vers l'AGI reste long.

ARC-AGI-3 en 2026

La prochaine version introduira des tâches de raisonnement interactif — le premier changement de format depuis 2019. L'objectif : continuer à mesurer le progrès réel vers l'intelligence générale.