Le mur du pré-entraînement
Le constat s'impose : le scaling traditionnel atteint ses limites. Marc Andreessen l'a confirmé : "on augmente les GPUs au même rythme, mais on n'obtient plus les améliorations d'intelligence". OpenAI's Orion montre le ralentissement. L'ère du "plus gros = meilleur" touche à sa fin.
L'histoire des scaling laws
Kaplan (2020)
OpenAI priorise la taille du modèle sur les données. GPT-3 : seulement 1,7 token par paramètre. Résultat : modèles sous-entraînés.
Chinchilla (2022)
DeepMind corrige : données et compute méritent un poids égal. Mais crée le "Chinchilla Trap" — modèles trop gros pour l'inférence pratique.
Llama (2023-2024)
Meta inverse la tendance : modèles plus petits, beaucoup plus de données. Llama 3 8B : 1 875 tokens par paramètre.
Les trois frontières du scaling
| Frontière | Statut 2025 | Perspective |
|---|---|---|
| Pré-entraînement | Saturé | Limité par les données |
| Post-entraînement | Actif | Données synthétiques efficaces |
| Inférence | En expansion | Multiplicateur 172× (o3) |
Le problème des données
- 510 trilliards de tokens indexés sur le web
- 18 trilliards dans le plus gros dataset (Qwen2.5)
- Mais la majorité est basse qualité ou répétitive
- Ilya Sutskever : "Nous avons atteint le pic de données"
Pire : depuis 2024, une partie croissante du web est générée par des LLMs.
L'inference-time scaling : la nouvelle frontière
OpenAI o3 démontre le potentiel :
- Mode high-compute : 57 millions de tokens, 13,8 minutes
- Mode low-compute : 330 000 tokens, 1,3 minute
- Multiplicateur : 172×
- Résultat : 87,5% sur ARC-AGI (vs 85% humain)
DeepSeek : la révolution low-cost
DeepSeek R1 a bouleversé les certitudes :
- Coût de développement : ~5 millions $ (vs 50-500M$ estimés)
- RLVR + GRPO : raisonnement via reinforcement learning
- Adoption généralisée par tous les labs majeurs
Prédictions 2026
- RLVR s'étend à la chimie et biologie
- RAG classique décline face aux longs contextes
- Progrès = tooling + inférence, pas entraînement
- Commoditisation : les LLMs deviennent interchangeables, marges compressées
Le verdict
Le scaling ne s'arrête pas — il se transforme. La question n'est plus "combien de paramètres ?" mais "quoi scaler ensuite ?"