Le paradigme bascule
Pendant des années, la recette était simple : plus de paramètres, plus de données, plus de GPUs à l'entraînement. En 2025, le paradigme a basculé. La nouvelle frontière : dépenser plus de compute à l'inférence pour laisser les modèles "réfléchir plus longtemps".
OpenAI a ouvert cette voie avec o1, puis o3. Le principe : via le reinforcement learning, le modèle apprend à utiliser une chaîne de pensée (chain-of-thought) pour résoudre des problèmes — reconnaître ses erreurs, décomposer les étapes, essayer différentes approches.
L'écosystème des reasoning models
Fin 2025, tous les labs majeurs ont leur modèle de raisonnement :
| Modèle | Lab | Particularité |
|---|---|---|
| o1 / o3 | OpenAI | Pionniers, RL + CoT |
| DeepSeek-R1 | DeepSeek | Performances o1 à 70 % du coût |
| Gemini 2.5 | Thinking mode intégré | |
| Claude 3.7 Sonnet | Anthropic | Mode thinking activable |
| Grok 3 | xAI | Thinking mode |
Les reasoning models génèrent des ordres de grandeur plus de tokens que les modèles classiques — c'est le prix de la "réflexion".
Comment ça marche
Chain-of-Thought (CoT) : le modèle déroule un raisonnement explicite étape par étape avant de répondre. Comme un humain qui réfléchit longuement avant une réponse difficile.
Reinforcement Learning : o1 est entraîné par RL à améliorer sa recherche implicite via CoT. Le moyen le plus simple d'incorporer la recherche dans les LLMs — et ça fonctionne.
D'autres techniques émergent : Monte Carlo Tree Search, Beam Search, Process-Based Supervision, Tree-of-Thought, et surtout le Latent CoT — raisonnement dans l'espace latent plutôt qu'en tokens explicites.
Les limites
Le test-time compute n'est pas une solution miracle. Pour DeepSeek-R1 et QwQ, allonger le raisonnement ne produit pas toujours de meilleurs résultats — le phénomène d'"underthinking" : le modèle atteint la bonne solution intermédiaire puis dévie en raisonnant trop longtemps.
Aucune technique ne domine sur tous les types de tâches.
L'enjeu économique
Les dépenses d'inférence d'OpenAI ont atteint 2,3 milliards de dollars en 2024 — 15 fois le coût d'entraînement de GPT-4.5. Le marché de l'inférence IA est estimé à 106 Mds $ en 2025, projection 255 Mds $ en 2030.
Les analystes estiment que l'inférence représentera 75 % du compute IA total d'ici 2030. Le scaling ne s'arrête pas — il change de lieu.