MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT
- Bastien
- 01 May, 2026
De V2-Pro à V2.5-Pro : la percée du contexte long
La famille MiMo de XiaoMi s’est rapidement imposée parmi les modèles open-weight les plus performants. MiMo-V2.5-Pro est la dernière itération — un modèle Mixture of Experts de 1,02 trillion de paramètres avec 42 milliards de paramètres actifs qui étend considérablement ce qui était possible avec MiMo-V2-Pro. La capacité phare n’est pas seulement l’échelle, mais la persistance de contexte long à 1 million de tokens, combinée à un raisonnement agentic entraîné via une distillation multi-enseignants sur politique.
Si MiMo-V2-Pro avait prouvé que l’architecture pouvait gérer de longues séquences, V2.5-Pro démontre qu’il peut retenir et appliquer de l’information à travers un million entier de tokens tout en maintenant un raisonnement agentic. Sur les benchmarks de navigation graphique en contexte long, V2.5-Pro obtient 0,62 sur la tâche Parents à 1M de tokens (vs. V2-Pro qui s’effondre à 0 à cette longueur), un bond qualitatif en rétention de contexte.
Architecture : MoE avec attention hybride et prédiction multi-tokens
MiMo-V2.5-Pro utilise une architecture à 70 couches (1 dense + 69 MoE) avec un système d’attention soigneusement structuré et des têtes de prédiction novatrices.
Attention hybride (SWA + GA, ratio 6:1).
60 couches utilisent l’Attention à Fenêtre Glissante (SWA) avec une fenêtre de 128 tokens, gérant efficacement le contexte local. Les 10 couches restantes utilisent l’Attention Globale (GA) pour capturer les dépendances à longue distance. Le ratio 6:1 s’est révélé optimal lors du pré-entraînement — suffisamment d’accès global pour prévenir la perte d’information à travers 1M de tokens, tout en gardant le calcul par couche gérable.
Mixture of Experts (384 experts, 8 routés par token).
Le modèle dispose de 384 experts au total, avec 8 actifs par token, générant 42 milliards de paramètres actifs sur 1,02T au total. Le réseau de routing distribue les tokens entre les experts de manière dynamique, chaque expert se spécialisant dans différents patterns linguistiques ou de raisonnement découverts lors des 27T de tokens de phase de pré-entraînement.
Prédiction Multi-Tokens (3 couches).
Trois têtes MTP sont attachées aux couches intermédiaires, permettant au modèle de prédire les 3 tokens suivants simultanément pendant l’entraînement. Cela accélère la convergence et améliore la qualité des représentations apprises sans ajouter de surcharge à l’inférence, car MTP n’est utilisé que durant le pré-entraînement.
Précision mixte FP8.
MiMo-V2.5-Pro a été entraîné en précision mixte FP8, une première à cette échelle. Le FP8 réduit les besoins en bande passante mémoire et augmente le débit pendant l’entraînement sans perte d’accuracy notable — la phase de pré-entraînement de 27T tokens s’est déroulée en longueur 32K avec FP8, avant un passage en BF16 pour les étapes de post-entraînement.
Résultats des benchmarks
Évaluation du modèle de base (après pré-entraînement, avant finetuning)
| Benchmark | MiMo-V2.5-Pro Base | MiMo-V2-Pro Base |
|---|---|---|
| BBH | 88,4 | 85,1 |
| MMLU | 89,4 | 87,3 |
| MMLU-Pro | 68,5 | 64,2 |
| MATH | 86,2 | 83,8 |
| HumanEval+ | 75,6 | 71,3 |
| SWE-Bench (AgentLess) | 35,7 | 31,2 |
| C-Eval | 91,5 | 89,8 |
Le modèle de base montre déjà un écart significatif sur toutes les catégories par rapport à V2-Pro, reflétant les bénéfices des 27T tokens de pré-entraînement et de l’efficacité du training FP8.
Évaluation post-entraînement (SFT + RL agentic + MOPD)
| Benchmark | MiMo-V2.5-Pro | MiMo-V2-Pro |
|---|---|---|
| SWE-Bench Pro | 57,2 % | — |
| SWE-Bench Verified | 78,9 % | 74,1 % |
| TerminalBench 2 | 68,4 % | 59,3 % |
| GPQA-Diamond | 66,7 % | 63,5 % |
| GSM8K | 99,6 % | 98,7 % |
Les gains post-entraînement sont substantiels — particulièrement sur SWE-Bench Pro (+~4 points) et TerminalBench 2 (+9,1 points). La Distillation Multi-Enseignants sur Politique (MOPD) joue un rôle clé ici : plusieurs modèles enseignants guident l’élève à travers des trajectoires on-policy, lui apprenant à raisonner de manière plus systématique dans les scénarios agentic.
Benchmark contexte long
L’exploit principal de V2.5-Pro est de préserver l’information aux longueurs de contexte extrêmes.
| Benchmark | MiMo-V2.5-Pro (1M) | MiMo-V2.5 (1M) | MiMo-V2-Pro (effondrement) |
|---|---|---|---|
| GraphWalks BFS | 0,37 | 0,31 | 0,00 |
| GraphWalks Parents | 0,62 | 0,48 | 0,00 |
À 1M de tokens, V2-Pro s’effondre complètement (0,00 sur les deux tâches), tandis que V2.5 conserve une capacité significative et V2.5-Pro atteint les scores les plus forts. Ce n’est pas une amélioration marginale — c’est la différence entre un modèle capable de raisonner à travers un document de 2000 pages et un modèle qui ne l’est pas.
Ce qui le différencie : persistance du contexte long + capacité agentic
Deux capacités distinguent MiMo-V2.5-Pro de ses concurrents :
1. Un contexte long qui fonctionne vraiment.
L’attention hybride avec le ratio 6:1 SWA/GA et l’entraînement MTP permettent ensemble à l’information de voyager à travers 1M de tokens. La plupart des modèles perdent la cohérence contextuelle bien avant 256K. V2.5-Pro a été explicitement évalué et validé sur des tâches de navigation graphique s’étendant sur des millions de tokens — une tâche qui exige de se souvenir de relations à travers une séquence arbitrairement longue.
2. Un raisonnement agentic via MOPD.
Le post-entraînement avec Distillation Multi-Enseignants sur Politique donne à V2.5-Pro la capacité de planifier, d’exécuter des opérations multi-étapes (code, recherche, navigation), et de se remettre des erreurs de manière autonome. La boucle de RL agentic a appris au modèle à maintenir une stratégie à travers des centaines d’étapes d’action, ce qui se traduit directement par 57,2 % sur SWE-Bench Pro.
Comparaison avec MiMo-V2.5 et MiMo-V2-Pro
| Dimension | MiMo-V2-Pro | MiMo-V2.5 | MiMo-V2.5-Pro |
|---|---|---|---|
| Paramètres totaux | 1,02T | 1,02T | 1,02T |
| Paramètres actifs | 42B | 42B | 42B |
| Architecture | MoE + Atn hybride | MoE + Atn hybride | MoE + Atn hybride + MTP |
| Couches | 69 | 69 | 70 (1 dense + 69 MoE) |
| Experts | 384 / 8 | 384 / 8 | 384 / 8 |
| Contexte | 128K | 512K | 1M |
| Tokens pré-entraînement | 14T | 20T | 27T |
| Précision pré-entraînement | FP16 | BF16 | FP8 → BF16 |
| Post-entraînement | SFT | SFT + RL | SFT + RL agentic + MOPD |
| SWE-Bench Pro | — | — | 57,2 % |
| GraphWalks Parents @ 1M | 0,00 | 0,00 | 0,62 |
| Licence | MIT | MIT | MIT |
V2.5-Pro est le seul modèle de la famille avec l’entraînement MTP, la validation complète du contexte 1M, et le pipeline de post-entraînement MOPD.
Déploiement
MiMo-V2.5-Pro peut être déployé via deux principaux frameworks d’inférence :
- SGLang (dernière version) avec décodage spéculatif EAGLE pour une inférence accélérée
- vLLM (dernière version) pour le service haute performance
Une API est disponible sur platform.xiaomimimo.com.
Pour un déploiement local avec décodage spéculatif EAGLE, SGLap fournit des améliorations significatives de débit en utilisant un petit modèle rédacteur pour proposer des tokens, que le vérificateur V2.5-Pro accepte ou rejète — atteignant généralement un gain de performance 2-3× sans perte d’accuracy.
Licence et accès
MiMo-V2.5-Pro est publié sous licence MIT — utilisation commerciale complète, modification et redistribution autorisées avec des restrictions minimales.
Le modèle est disponible sur : XiaoMi/MiMo-V2.5-Pro
Citation
@misc{xiaomicom2026.mimov25pro,
title={MiMo V2.5 Pro: Efficient Long-Context Language Model with Multi-Teacher On-Policy Distillation},
author={XiaoMi},
year={2026}
}
Tags :
- IA
- MiMo
- LLM
- MoE
- Agentic
- Open Source
- Long Context
- Coding
- FP8