Le nouveau flagship d'Anthropic
Anthropic a lancé Claude Opus 4.6 le 5 février 2026, trois mois après Opus 4.5. Le modèle est disponible sur l'API Anthropic (claude-opus-4-6), Amazon Bedrock, Google Vertex AI, Microsoft Foundry et claude.ai pour les abonnés Pro et Team.
Des benchmarks qui écrasent la concurrence
Opus 4.6 prend la tête sur quasiment tous les benchmarks professionnels :
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| Terminal-Bench 2.0 (code agentique) | 65.4 % | 64.7 % | 56.2 % |
| GDPval-AA (travail professionnel) | 1606 Elo | 1462 Elo | 1195 Elo |
| ARC-AGI-2 (raisonnement) | 68.8 % | 54.2 % | 45.1 % |
| OSWorld (computer use) | 72.7 % | — | — |
| SWE-bench Verified | 80.8 % | — | — |
Sur GDPval-AA, qui mesure les tâches à valeur économique (finance, juridique, consulting), Opus 4.6 devance GPT-5.2 de 144 points Elo. Sur ARC-AGI-2, il progresse de 83 % par rapport à Opus 4.5 (37.6 % → 68.8 %).
1 million de tokens de contexte
Opus 4.6 est le premier modèle Opus à supporter 1 million de tokens en contexte (beta), soit environ 750 000 mots ou 10-15 articles scientifiques complets. Sur le test MRCR v2 (8 aiguilles cachées dans 1M de tokens), il atteint 76 % contre 18.5 % pour Sonnet 4.5 — un saut qualitatif, selon Anthropic.
La sortie passe de 64k à 128k tokens maximum.
Agent teams : la coordination multi-agents
La nouveauté majeure : les agent teams. Dans Claude Code, vous pouvez désormais assembler des équipes d'agents qui se répartissent les tâches. Chaque agent gère sa partie et se coordonne directement avec les autres — idéal pour les projets complexes (refactoring massif, analyse multi-documents, workflows enterprise).
Adaptive thinking et Compaction API
L'extended thinking disparaît au profit de l'adaptive thinking : quatre niveaux d'effort (low, medium, high, max) que le modèle ajuste automatiquement selon la complexité de la tâche.
Nouvelle Compaction API : le modèle peut résumer automatiquement les conversations longues côté serveur, permettant des sessions théoriquement infinies sans gestion manuelle du contexte.
Pricing
| Tier | Input | Output |
|---|---|---|
| Standard (≤200k tokens) | 5 $/MTok | 25 $/MTok |
| Long context (200k-1M) | 10 $/MTok | 37.50 $/MTok |
| Batch processing | -50 % | -50 % |
| US-only inference | +10 % | +10 % |
Breaking change : le prefilling d'assistant est désactivé (erreur 400). Migration vers structured outputs ou system prompts recommandée.