Recherche

ARC-AGI-2 : le benchmark qui humilie les modèles frontier

24 mars 2025 3 min de lecture Paul Forcadel
ARC-AGI-2 : le benchmark qui humilie les modèles frontier
Image : ARC Prize

Un nouveau défi pour l'intelligence artificielle

Le 24 mars 2025, l'ARC Prize Foundation a lancé ARC-AGI-2, la deuxième édition du benchmark conçu pour mesurer l'intelligence fluide des systèmes IA. Créé par François Chollet (créateur de Keras) et Mike Knoop, ce test évalue la capacité à résoudre des problèmes inédits, pas la mémorisation.

Le fossé humain-IA exposé

Les résultats sont sans appel :

Système ARC-AGI-1 ARC-AGI-2
Humains ~100% 75%
o3 (Medium) 53% 3%
o3-mini (High) 34.5% 3%
Claude 3.7 (8K) 21.2% 0.9%

Les modèles qui performaient bien sur ARC-AGI-1 s'effondrent sur la v2. Même o3 d'OpenAI, présenté comme une avancée majeure en raisonnement, chute de 53% à 3%.

Pourquoi c'est si difficile ?

ARC-AGI-2 introduit des défis inédits :

  • Raisonnement compositionnel : plusieurs règles interagissent simultanément
  • Raisonnement multi-étapes : les sorties dépendent d'états intermédiaires
  • Symboles en contexte : interpréter des significations définies dans la tâche
  • Règles conditionnelles : logique variable selon le contexte

Le benchmark utilise des grilles de 1×1 à 30×30 avec 10 couleurs. Les humains résolvent les tâches en 2,2 minutes en médiane.

Validation scientifique rigoureuse

407 participants humains ont été testés dans des sessions contrôlées entre novembre 2024 et mai 2025. Fait notable : aucune corrélation entre l'expérience technique (programmation, maths) et les performances. Le test mesure vraiment l'intelligence générale.

ARC Prize 2025 : 1 million de dollars en jeu

1 455 équipes ont participé avec 15 154 soumissions. Résultats :

  • Grand Prix (85% requis) : 700 000$ — non attribué
  • 1er Score : NVARC avec 24.03% — 25 000$
  • 1er Paper : Tiny Recursive Model (7M paramètres, 45% ARC-AGI-1, 8% ARC-AGI-2) — 50 000$

La percée GPT-5.2

Fin 2025, GPT-5.2 a atteint ~54% sur ARC-AGI-2, doublant les performances précédentes. Mais comme le rappelle Chollet : les humains résolvent 100% des tâches. Le chemin vers l'AGI reste long.

ARC-AGI-3 en 2026

La prochaine version introduira des tâches de raisonnement interactif — le premier changement de format depuis 2019. L'objectif : continuer à mesurer le progrès réel vers l'intelligence générale.

Partager cet article

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Parcourir par catégorie

Newsletter

Recevez les actus IA directement dans votre boîte mail.

Suivez-nous

Retrouvez-nous sur les réseaux pour ne rien rater.