Le laboratoire chinois Zhipu AI a publié le 11 février GLM-5, un modèle de langage de 744 milliards de paramètres sous licence MIT. Sa particularité : il a été entraîné intégralement sur puces Huawei Ascend, sans recourir au matériel Nvidia — une première pour un modèle de cette envergure.
Un modèle massif, mais efficace
GLM-5 utilise une architecture Mixture-of-Experts (MoE) : sur ses 744 milliards de paramètres totaux, seuls 40 milliards sont activés par token à l'inférence. Cette conception permet de combiner puissance brute et coûts de déploiement maîtrisés. Le modèle a été pré-entraîné sur 28,5 trillions de tokens et gère un contexte de 200 000 tokens grâce au mécanisme DeepSeek Sparse Attention.
Des benchmarks qui bousculent la hiérarchie
Sur SWE-bench Verified (ingénierie logicielle), GLM-5 atteint 77,8 %, dépassant Gemini 3 Pro (76,2 %) et s'approchant de Claude Opus 4.5 (80,9 %). Sur BrowseComp (navigation web autonome), il explose la concurrence avec un score de 62,0 — quasiment le double de Claude (37,0).
En raisonnement, il marque 92,7 sur AIME 2026, au coude-à-coude avec Claude (93,3). Sur Humanity's Last Exam avec outils, il atteint 50,4 — devant Claude (43,4) et GPT-5.2 (45,5).
L'indépendance technologique chinoise
L'exploit technique majeur réside dans l'infrastructure d'entraînement. GLM-5 a été développé sur le framework MindSpore de Huawei, sans aucun GPU Nvidia. Le modèle supporte aussi les puces Moore Threads et Cambricon à l'inférence. Dans un contexte de restrictions américaines à l'export de semi-conducteurs, c'est une démonstration que l'écosystème chinois peut produire des modèles frontier de manière autonome.
Open source et prix cassés
Publié sous licence MIT sur Hugging Face, GLM-5 est le modèle open source le plus puissant à date. Son API est facturée environ 0,11 $ par million de tokens — soit jusqu'à 6 fois moins cher que les modèles propriétaires occidentaux. Le modèle est aussi accessible gratuitement via la plateforme Z.ai.
Selon The Decoder, le retard entre les modèles frontier chinois et occidentaux est passé de 7 mois à environ 3 mois — un signal clair de convergence dans la course à l'IA.