Qwen3-Max-Thinking : le modèle d'Alibaba qui score 100 % en maths et rivalise avec GPT-5.2

100 % en maths, un trillion de paramètres

Alibaba a lancé Qwen3-Max-Thinking le 26 janvier 2026. Le modèle dépasse le trillion de paramètres et s'appuie sur du reinforcement learning à grande échelle pour améliorer le raisonnement complexe, la connaissance factuelle et les capacités d'agent.

Le résultat le plus spectaculaire : un score parfait de 100 % sur l'AIME 2025 (American Invitational Mathematics Examination) et le HMMT (Harvard-MIT Mathematics Tournament). C'est le premier modèle chinois à atteindre ce niveau sur ces deux compétitions de mathématiques de premier plan.

Sur 19 benchmarks établis couvrant les sciences, les maths, le code et les questions de niveau expert, Qwen3-Max-Thinking affiche des performances comparables à GPT-5.2-Thinking, Claude Opus 4.5 et Gemini 3 Pro. Sur Arena-Hard v2, il poste un score de 90,2 — loin devant Claude Opus 4.5 (76,7).

Penser avec ses outils

La vraie innovation est dans l'utilisation adaptative des outils. Contrairement aux modèles classiques qui séparent raisonnement et appels d'outils, Qwen3-Max-Thinking peut entrelacer les deux. Pendant qu'il réfléchit, il décide dynamiquement d'invoquer :

Recherche web — pour vérifier des faits en temps réel et réduire les hallucinations
Interpréteur de code — pour du raisonnement computationnel précis
Mémoire — pour personnaliser les réponses en fonction du contexte accumulé

Le modèle fonctionne comme un expert humain qui consulte ses références pendant sa réflexion, plutôt que de tout produire de mémoire.

Test-time scaling : échanger du compute contre de l'intelligence

Qwen3-Max-Thinking utilise une stratégie de test-time scaling « expérience-cumulative » : le modèle distille les insights de ses interactions précédentes pour améliorer son efficacité contextuelle. Cette approche surpasse les méthodes classiques d'échantillonnage parallèle à coût de tokens équivalent.

En pratique, le modèle fusionne les modes thinking et non-thinking en un seul modèle. Il active la réflexion profonde quand la précision est cruciale, et bascule en mode rapide pour les requêtes routinières.

Disponibilité et prix

Qwen3-Max-Thinking est disponible sur Qwen Chat et via l'API Model Studio d'Alibaba Cloud (identifiant : qwen3-max-2026-01-23). Fenêtre de contexte : 262 144 tokens.

Tarification API : 1,20 $ par million de tokens en entrée (contexte ≤ 32k), 6 $ par million en sortie. Compétitif face aux modèles occidentaux, sans être au niveau des prix DeepSeek.

Un signal géopolitique

Avec Qwen3-Max-Thinking, Alibaba rejoint DeepSeek dans la course au sommet des benchmarks. Deux modèles chinois à trillion+ de paramètres qui rivalisent frontalement avec OpenAI et Anthropic — la compétition IA ne se joue plus uniquement dans la Silicon Valley.

Qwen3-Max-Thinking : le modèle d'Alibaba qui score 100 % en maths et rivalise avec GPT-5.2

100 % en maths, un trillion de paramètres

Penser avec ses outils

Test-time scaling : échanger du compute contre de l'intelligence

Disponibilité et prix

Un signal géopolitique

Sources

Rédigé par

Paul Forcadel

Parcourir par catégorie