Google DeepMind a lancé le 19 février Gemini 3.1 Pro, une mise à jour qui représente le plus grand bond de raisonnement jamais enregistré dans une famille de modèles frontier. Le score ARC-AGI-2 passe de 31,1 % à 77,1 % — soit +46 points en une seule génération.
Les chiffres clés
Le modèle ne se contente pas d'un exploit isolé. Sur 18 benchmarks suivis, Gemini 3.1 Pro prend la première place sur 12 :
- ARC-AGI-2 : 77,1 % (vs 52,9 % pour GPT-5.2 et 68,8 % pour Claude Opus 4.6)
- GPQA Diamond (sciences) : 94,3 %
- SWE-Bench Verified (coding) : 80,6 %
- LiveCodeBench Pro : 2 887 Elo (vs 2 393 pour GPT-5.2)
- Humanity's Last Exam : 44,7 % — un record
- APEX-Agents : 33,5 % — n°1 du classement
Le contexte reste à 1 million de tokens en entrée (64K en sortie), avec support natif pour le texte, l'audio (8,4 heures), la vidéo (1 heure), les images (900 par prompt) et les dépôts de code entiers.
Conçu pour les agents
La vraie ambition de Google se lit dans les benchmarks agentiques. Un endpoint dédié gemini-3.1-pro-preview-customtools optimise les commandes bash et les outils système (view_file, search_code) pour des agents autonomes plus fiables. Sur MCP Atlas, le modèle gagne 15 points par rapport à Gemini 3 Pro.
Trois niveaux de « thinking » (Low, Medium, High) permettent d'ajuster le ratio coût/performance selon la complexité de la tâche — une première pour un modèle Google.
Prix : 7,5× moins cher que Claude Opus
Les tarifs API restent identiques au prédécesseur : 2 $ par million de tokens en entrée, 12 $ en sortie (standard ≤200K). Au-delà de 200K tokens, le tarif passe à 4 $/18 $. Le cache de contexte réduit le coût d'entrée à 0,50 $.
Rapporté aux performances, c'est 7,5 fois moins cher que Claude Opus 4.6 en input — un argument massif pour les déploiements agentiques en entreprise.
Disponibilité
Gemini 3.1 Pro est disponible en preview via l'app Gemini, Google AI Studio, Vertex AI, l'API Gemini, NotebookLM et Android Studio. Les abonnés AI Pro (19,99 $/mois) et AI Ultra (124,99 $/mois) y ont accès directement.
Ce que ça change
Avec ce modèle, Google reprend la tête sur le raisonnement abstrait et le coding agentique tout en maintenant des prix agressifs. La question n'est plus de savoir si les modèles Pro peuvent rivaliser avec les Opus et GPT flagship — mais combien de temps ces derniers pourront justifier leur premium.