Recherche

Gemini 3 Deep Think : Google pulvérise les benchmarks de raisonnement scientifique

12 févr. 2026 3 min de lecture Paul Forcadel
Gemini 3 Deep Think : Google pulvérise les benchmarks de raisonnement scientifique

Le mode raisonnement de Google passe un cap

Le 12 février 2026, Google DeepMind dévoile une mise à jour majeure de Gemini 3 Deep Think, son mode de raisonnement spécialisé. Le résultat : des scores qui repoussent les limites de ce qu'un modèle IA peut résoudre en science, mathématiques et ingénierie.

Les benchmarks qui font parler

Benchmark Deep Think Claude Opus 4.6 GPT-5.2
ARC-AGI-2 (raisonnement abstrait) 84,6 % 68,8 % 52,9 %
Humanity's Last Exam 48,4 % 40,0 % 34,5 %
MMMU-Pro (multimodal) 81,5 % 73,9 % 79,5 %
Codeforces (Elo) 3 455 2 352

Les chiffres parlent d'eux-mêmes : sur ARC-AGI-2, le benchmark de raisonnement abstrait qui humiliait les modèles frontier fin 2025, Deep Think dépasse Claude Opus 4.6 de 16 points et GPT-5.2 de 32 points.

En compétition scientifique, le modèle décroche le niveau médaille d'or aux Olympiades internationales de mathématiques, physique et chimie 2025. Sur Codeforces (programmation compétitive), son Elo de 3 455 le place au-dessus de 99,9 % des compétiteurs humains.

Comment ça fonctionne

Contrairement au chain-of-thought classique (raisonnement linéaire), Deep Think explore plusieurs hypothèses en parallèle à chaque étape. Le modèle évalue chaque chemin de solution contre les contraintes du problème, puis converge vers la réponse la plus rigoureuse.

Un paramètre thinking_level contrôle la profondeur du raisonnement (none, low, medium, deep), avec un coût de calcul allant de 1× à 50× le traitement standard. Plus le problème est complexe, plus Deep Think "réfléchit" — et consomme de tokens.

Les limites

L'avance se réduit drastiquement sur les tâches multimodales : sur MMMU-Pro, Deep Think (81,5 %) devance à peine Gemini 3 Pro Preview (81,0 %). Les améliorations se concentrent sur le raisonnement abstrait, pas le traitement visuel.

En coding de production, Claude Opus 4.6 garde l'avantage. En vitesse brute, GPT-5.2 reste le plus rapide. Deep Think est un spécialiste du raisonnement profond, pas un généraliste.

Accès et tarifs

  • Google AI Ultra : 124,99 $/mois (accès complet)
  • Google AI Studio : test gratuit (Deep Think limité)
  • API : programme d'accès anticipé pour entreprises et chercheurs via Vertex AI
  • Pricing API : 2-4 $/M tokens en entrée, 12-18 $/M en sortie (base Gemini 3 Pro)

Ce que ça signifie

Avec Deep Think, Google reprend la main sur le raisonnement scientifique — un terrain que Claude et GPT-5.2 ne contestent plus sérieusement. Pour les chercheurs, les cas d'usage concrets émergent : conversion de croquis en modèles 3D, identification de patterns dans des données expérimentales, construction de preuves mathématiques, simulation par éléments finis. L'IA ne remplace pas le chercheur, mais elle commence à penser comme lui.

Partager cet article

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Parcourir par catégorie