Claude Opus 4.5 : Anthropic reprend la couronne du code et des agents

24 nov. 2025 2 min de lecture Paul Forcadel

Le modèle frontier spécialisé

Le 24 novembre 2025, Anthropic a dévoilé Claude Opus 4.5, complétant sa famille de modèles 4.5 après Sonnet (septembre) et Haiku (octobre). Plutôt que de viser le "fait-tout", Anthropic positionne Opus 4.5 comme un instrument spécialisé pour le travail cognitif exigeant : code, agents autonomes et utilisation d'ordinateur.

Benchmarks record

SWE-bench Verified : 80,9 %, premier modèle à franchir la barre des 80 % sur ce benchmark d'ingénierie logicielle réelle. Anthropic a soumis Opus 4.5 au même test que ses candidats ingénieurs performance — le modèle a obtenu un score supérieur à tout candidat humain.

ARC-AGI-2 : 37,6 %, plus du double du score de GPT-5.1 et 6 points devant Gemini 3 Pro sur ce test de raisonnement.

Coding multilingue : leader sur 7 des 8 langages de SWE-bench Multilingual, +10,6 % par rapport à Sonnet 4.5 sur Aider Polyglot.

Efficacité radicale

Avec le paramètre d'effort réglé sur "medium", Opus 4.5 égale Sonnet 4.5 sur SWE-bench tout en consommant 76 % de tokens en moins. Même au niveau "high", il utilise moitié moins de tokens que Sonnet.

Agents autonomes

Opus 4.5 excelle sur les tâches longues nécessitant un raisonnement soutenu. En automatisation bureautique, les agents Opus 4.5 ont pu affiner leurs propres capacités de manière autonome, atteignant la performance optimale en 4 itérations là où d'autres modèles n'y parvenaient pas en 10.

Prix divisé par trois

Anthropic lance Opus 4.5 à 5 $ / 25 $ par million de tokens (entrée/sortie), contre 15 $ / 75 $ pour la génération précédente. Disponible via l'API Claude, AWS Bedrock, Google Cloud Vertex AI et Microsoft Azure Foundry.

Contexte concurrentiel

Opus 4.5 arrive dans un paysage chargé : Gemini 3 Pro de Google une semaine plus tôt, GPT-5.1 d'OpenAI, et Grok 4.1 de xAI. Anthropic fait le choix de la spécialisation plutôt que de la course au généraliste.