GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI
- Bastien
- 30 Mar, 2026
Qu’est-ce que GLM-5 ?
GLM-5 est un grand modèle de langage publié par ZhipuAI (智谱AI). Il possède 744 milliards de paramètres au total, dont seulement 40 milliards actifs à l’inférence — le même schéma d’efficacité Mixture of Experts qui a rendu DeepSeek-V3 pratique à déployer à grande échelle.
Il est le successeur direct de GLM-4.5 (355B/32B actifs) et GLM-4.7, avec nettement plus de données de pré-entraînement (28,5T tokens contre 23T), un nouveau mécanisme d’attention sparse, et une infrastructure de post-entraînement conçue spécifiquement pour les tâches agentiques longue portée. Le titre du papier est éloquent : GLM-5: from Vibe Coding to Agentic Engineering.
Les chiffres de benchmark sont de niveau frontier pour un modèle open weights : 92,7% sur AIME 2026, 77,8% sur SWE-bench Verified, et 96,9% sur HMMT Nov 2025 — le meilleur score open source sur ce benchmark de mathématiques de compétition.
Architecture et entraînement
DeepSeek Sparse Attention (DSA) est intégré pour réduire le coût de déploiement tout en préservant la capacité de contexte long. À 744B paramètres totaux, les exigences matérielles sont significatives — mais le compte de 40B paramètres actifs maintient le calcul par token à un niveau gérable.
L’infrastructure RL “slime” est la solution de ZhipuAI pour entraîner des modèles sur des tâches complexes multi-étapes. Le RLHF classique peine sur les tâches longue portée car les signaux de récompense sont rares. La conception asynchrone découple la génération de l’optimisation, permettant des batchs plus grands et un entraînement plus stable sur les tâches d’agents multi-étapes.
Résultats des benchmarks
Mathématiques
| Benchmark | GLM-5 | GLM-4.7 |
|---|---|---|
| AIME 2026 I | 92,7% | — |
| HMMT Nov 2025 | 96,9% | — |
| HLE (sans outils) | 30,5 | 24,8 |
| HLE (avec outils) | 50,4 | — |
HMMT (Harvard-MIT Mathematics Tournament) est un tournoi de mathématiques de niveau universitaire très compétitif. 96,9% est le meilleur résultat open source sur ce benchmark.
Codage et ingénierie logicielle
| Benchmark | Score |
|---|---|
| SWE-bench Verified | 77,8% |
| Terminal-Bench 2.0 | 56,2–61,1% |
SWE-bench Verified mesure la capacité à résoudre de vrais problèmes GitHub sur des bases de code open source. À 77,8%, GLM-5 se situe au niveau frontier pour les modèles ouverts. Les scores Terminal-Bench sont compétitifs avec Claude Opus 4.5 sur les tâches d’ingénierie en ligne de commande.
Raisonnement et connaissances
| Benchmark | Score |
|---|---|
| GPQA-Diamond | 86,0% |
| HLE (Humanity’s Last Exam) | 30,5 |
| HLE avec outils | 50,4 |
GPQA-Diamond est un benchmark de raisonnement de niveau doctorat ; 86,0% place GLM-5 parmi les meilleurs modèles disponibles. HLE est l’évaluation de connaissances générales la plus difficile actuellement utilisée.
Cybersécurité
| Benchmark | Score |
|---|---|
| CyberGym | 43,2% |
Fenêtre de contexte et usage agentique
GLM-5 supporte jusqu’à 202 752 tokens dans les configurations avec raisonnement + utilisation d’outils — assez long pour contenir des bases de code entières, de longs rapports ou des trajectoires d’agents multi-tours en contexte.
Le modèle supporte nativement :
- Appel d’outils via le parser GLM-4.7 avec auto-tool-choice
- Raisonnement étendu via le parser de raisonnement GLM-4.5
- Navigation web, exécution de terminal et appel de fonctions
Déploiement
Une version quantifiée FP8 (zai-org/GLM-5-FP8) est disponible, réduisant significativement les besoins en mémoire. vLLM et SGLang sont tous deux supportés, avec le décodage spéculatif activé pour un meilleur débit.
Avec vLLM :
docker pull vllm/vllm-openai:nightly
vllm serve zai-org/GLM-5-FP8 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.85 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5-fp8
Avec SGLang :
python3 -m sglang.launch_server \
--model-path zai-org/GLM-5-FP8 \
--tp-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3
Les déploiements sur Ascend NPU sont supportés via KTransformers et xLLM.
Limites
- Langues : anglais et chinois uniquement — pas de couverture multilingue au-delà de ces deux langues
- Exigences d’échelle — même avec la quantification FP8, 40B paramètres actifs nécessite des configurations multi-GPU (8× tensor parallel dans les exemples)
- Pas d’API publique pour l’instant — uniquement auto-hébergé
- Le contexte à 202K nécessite une configuration spécifique — le contexte d’évaluation par défaut est 128K
- Détails de la licence non précisés dans la fiche modèle ; vérifier avant tout déploiement commercial
Conclusion
GLM-5 entre dans le niveau frontier open source qu’occupent seulement DeepSeek-V3 et quelques autres. La conception MoE 744B/40B maintient l’inférence pratique tout en délivrant des chiffres de benchmark — 96,9% HMMT, 77,8% SWE-bench, 86,0% GPQA-Diamond — qui correspondent ou dépassent de nombreux modèles fermés.
Pour les équipes ayant besoin d’un modèle auto-hébergé pour des charges de travail sérieuses en mathématiques, codage ou tâches agentiques sans dépendre d’une API externe, GLM-5 est désormais l’option la plus solide disponible.
Modèle : zai-org/GLM-5 · Version FP8
Tags :
- IA
- ZhipuAI
- LLM
- MoE
- Raisonnement
- Open Source
- Agentique