Un nouveau défi pour l'intelligence artificielle
Le 24 mars 2025, l'ARC Prize Foundation a lancé ARC-AGI-2, la deuxième édition du benchmark conçu pour mesurer l'intelligence fluide des systèmes IA. Créé par François Chollet (créateur de Keras) et Mike Knoop, ce test évalue la capacité à résoudre des problèmes inédits, pas la mémorisation.
Le fossé humain-IA exposé
Les résultats sont sans appel :
| Système | ARC-AGI-1 | ARC-AGI-2 |
|---|---|---|
| Humains | ~100% | 75% |
| o3 (Medium) | 53% | 3% |
| o3-mini (High) | 34.5% | 3% |
| Claude 3.7 (8K) | 21.2% | 0.9% |
Les modèles qui performaient bien sur ARC-AGI-1 s'effondrent sur la v2. Même o3 d'OpenAI, présenté comme une avancée majeure en raisonnement, chute de 53% à 3%.
Pourquoi c'est si difficile ?
ARC-AGI-2 introduit des défis inédits :
- Raisonnement compositionnel : plusieurs règles interagissent simultanément
- Raisonnement multi-étapes : les sorties dépendent d'états intermédiaires
- Symboles en contexte : interpréter des significations définies dans la tâche
- Règles conditionnelles : logique variable selon le contexte
Le benchmark utilise des grilles de 1×1 à 30×30 avec 10 couleurs. Les humains résolvent les tâches en 2,2 minutes en médiane.
Validation scientifique rigoureuse
407 participants humains ont été testés dans des sessions contrôlées entre novembre 2024 et mai 2025. Fait notable : aucune corrélation entre l'expérience technique (programmation, maths) et les performances. Le test mesure vraiment l'intelligence générale.
ARC Prize 2025 : 1 million de dollars en jeu
1 455 équipes ont participé avec 15 154 soumissions. Résultats :
- Grand Prix (85% requis) : 700 000$ — non attribué
- 1er Score : NVARC avec 24.03% — 25 000$
- 1er Paper : Tiny Recursive Model (7M paramètres, 45% ARC-AGI-1, 8% ARC-AGI-2) — 50 000$
La percée GPT-5.2
Fin 2025, GPT-5.2 a atteint ~54% sur ARC-AGI-2, doublant les performances précédentes. Mais comme le rappelle Chollet : les humains résolvent 100% des tâches. Le chemin vers l'AGI reste long.
ARC-AGI-3 en 2026
La prochaine version introduira des tâches de raisonnement interactif — le premier changement de format depuis 2019. L'objectif : continuer à mesurer le progrès réel vers l'intelligence générale.