Type something to search...
MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT

MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT

De V2-Pro à V2.5-Pro : la percée du contexte long

La famille MiMo de XiaoMi s’est rapidement imposée parmi les modèles open-weight les plus performants. MiMo-V2.5-Pro est la dernière itération — un modèle Mixture of Experts de 1,02 trillion de paramètres avec 42 milliards de paramètres actifs qui étend considérablement ce qui était possible avec MiMo-V2-Pro. La capacité phare n’est pas seulement l’échelle, mais la persistance de contexte long à 1 million de tokens, combinée à un raisonnement agentic entraîné via une distillation multi-enseignants sur politique.

Si MiMo-V2-Pro avait prouvé que l’architecture pouvait gérer de longues séquences, V2.5-Pro démontre qu’il peut retenir et appliquer de l’information à travers un million entier de tokens tout en maintenant un raisonnement agentic. Sur les benchmarks de navigation graphique en contexte long, V2.5-Pro obtient 0,62 sur la tâche Parents à 1M de tokens (vs. V2-Pro qui s’effondre à 0 à cette longueur), un bond qualitatif en rétention de contexte.


Architecture : MoE avec attention hybride et prédiction multi-tokens

MiMo-V2.5-Pro utilise une architecture à 70 couches (1 dense + 69 MoE) avec un système d’attention soigneusement structuré et des têtes de prédiction novatrices.

Attention hybride (SWA + GA, ratio 6:1).
60 couches utilisent l’Attention à Fenêtre Glissante (SWA) avec une fenêtre de 128 tokens, gérant efficacement le contexte local. Les 10 couches restantes utilisent l’Attention Globale (GA) pour capturer les dépendances à longue distance. Le ratio 6:1 s’est révélé optimal lors du pré-entraînement — suffisamment d’accès global pour prévenir la perte d’information à travers 1M de tokens, tout en gardant le calcul par couche gérable.

Mixture of Experts (384 experts, 8 routés par token).
Le modèle dispose de 384 experts au total, avec 8 actifs par token, générant 42 milliards de paramètres actifs sur 1,02T au total. Le réseau de routing distribue les tokens entre les experts de manière dynamique, chaque expert se spécialisant dans différents patterns linguistiques ou de raisonnement découverts lors des 27T de tokens de phase de pré-entraînement.

Prédiction Multi-Tokens (3 couches).
Trois têtes MTP sont attachées aux couches intermédiaires, permettant au modèle de prédire les 3 tokens suivants simultanément pendant l’entraînement. Cela accélère la convergence et améliore la qualité des représentations apprises sans ajouter de surcharge à l’inférence, car MTP n’est utilisé que durant le pré-entraînement.

Précision mixte FP8.
MiMo-V2.5-Pro a été entraîné en précision mixte FP8, une première à cette échelle. Le FP8 réduit les besoins en bande passante mémoire et augmente le débit pendant l’entraînement sans perte d’accuracy notable — la phase de pré-entraînement de 27T tokens s’est déroulée en longueur 32K avec FP8, avant un passage en BF16 pour les étapes de post-entraînement.


Résultats des benchmarks

Évaluation du modèle de base (après pré-entraînement, avant finetuning)

BenchmarkMiMo-V2.5-Pro BaseMiMo-V2-Pro Base
BBH88,485,1
MMLU89,487,3
MMLU-Pro68,564,2
MATH86,283,8
HumanEval+75,671,3
SWE-Bench (AgentLess)35,731,2
C-Eval91,589,8

Le modèle de base montre déjà un écart significatif sur toutes les catégories par rapport à V2-Pro, reflétant les bénéfices des 27T tokens de pré-entraînement et de l’efficacité du training FP8.

Évaluation post-entraînement (SFT + RL agentic + MOPD)

BenchmarkMiMo-V2.5-ProMiMo-V2-Pro
SWE-Bench Pro57,2 %
SWE-Bench Verified78,9 %74,1 %
TerminalBench 268,4 %59,3 %
GPQA-Diamond66,7 %63,5 %
GSM8K99,6 %98,7 %

Les gains post-entraînement sont substantiels — particulièrement sur SWE-Bench Pro (+~4 points) et TerminalBench 2 (+9,1 points). La Distillation Multi-Enseignants sur Politique (MOPD) joue un rôle clé ici : plusieurs modèles enseignants guident l’élève à travers des trajectoires on-policy, lui apprenant à raisonner de manière plus systématique dans les scénarios agentic.


Benchmark contexte long

L’exploit principal de V2.5-Pro est de préserver l’information aux longueurs de contexte extrêmes.

BenchmarkMiMo-V2.5-Pro (1M)MiMo-V2.5 (1M)MiMo-V2-Pro (effondrement)
GraphWalks BFS0,370,310,00
GraphWalks Parents0,620,480,00

À 1M de tokens, V2-Pro s’effondre complètement (0,00 sur les deux tâches), tandis que V2.5 conserve une capacité significative et V2.5-Pro atteint les scores les plus forts. Ce n’est pas une amélioration marginale — c’est la différence entre un modèle capable de raisonner à travers un document de 2000 pages et un modèle qui ne l’est pas.


Ce qui le différencie : persistance du contexte long + capacité agentic

Deux capacités distinguent MiMo-V2.5-Pro de ses concurrents :

1. Un contexte long qui fonctionne vraiment.
L’attention hybride avec le ratio 6:1 SWA/GA et l’entraînement MTP permettent ensemble à l’information de voyager à travers 1M de tokens. La plupart des modèles perdent la cohérence contextuelle bien avant 256K. V2.5-Pro a été explicitement évalué et validé sur des tâches de navigation graphique s’étendant sur des millions de tokens — une tâche qui exige de se souvenir de relations à travers une séquence arbitrairement longue.

2. Un raisonnement agentic via MOPD.
Le post-entraînement avec Distillation Multi-Enseignants sur Politique donne à V2.5-Pro la capacité de planifier, d’exécuter des opérations multi-étapes (code, recherche, navigation), et de se remettre des erreurs de manière autonome. La boucle de RL agentic a appris au modèle à maintenir une stratégie à travers des centaines d’étapes d’action, ce qui se traduit directement par 57,2 % sur SWE-Bench Pro.


Comparaison avec MiMo-V2.5 et MiMo-V2-Pro

DimensionMiMo-V2-ProMiMo-V2.5MiMo-V2.5-Pro
Paramètres totaux1,02T1,02T1,02T
Paramètres actifs42B42B42B
ArchitectureMoE + Atn hybrideMoE + Atn hybrideMoE + Atn hybride + MTP
Couches696970 (1 dense + 69 MoE)
Experts384 / 8384 / 8384 / 8
Contexte128K512K1M
Tokens pré-entraînement14T20T27T
Précision pré-entraînementFP16BF16FP8 → BF16
Post-entraînementSFTSFT + RLSFT + RL agentic + MOPD
SWE-Bench Pro57,2 %
GraphWalks Parents @ 1M0,000,000,62
LicenceMITMITMIT

V2.5-Pro est le seul modèle de la famille avec l’entraînement MTP, la validation complète du contexte 1M, et le pipeline de post-entraînement MOPD.


Déploiement

MiMo-V2.5-Pro peut être déployé via deux principaux frameworks d’inférence :

  • SGLang (dernière version) avec décodage spéculatif EAGLE pour une inférence accélérée
  • vLLM (dernière version) pour le service haute performance

Une API est disponible sur platform.xiaomimimo.com.

Pour un déploiement local avec décodage spéculatif EAGLE, SGLap fournit des améliorations significatives de débit en utilisant un petit modèle rédacteur pour proposer des tokens, que le vérificateur V2.5-Pro accepte ou rejète — atteignant généralement un gain de performance 2-3× sans perte d’accuracy.


Licence et accès

MiMo-V2.5-Pro est publié sous licence MIT — utilisation commerciale complète, modification et redistribution autorisées avec des restrictions minimales.

Le modèle est disponible sur : XiaoMi/MiMo-V2.5-Pro


Citation

@misc{xiaomicom2026.mimov25pro,
  title={MiMo V2.5 Pro: Efficient Long-Context Language Model with Multi-Teacher On-Policy Distillation},
  author={XiaoMi},
  year={2026}
}
Tags :
  • IA
  • MiMo
  • LLM
  • MoE
  • Agentic
  • Open Source
  • Long Context
  • Coding
  • FP8
Share :

Related Posts

DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace

DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace

Introduction DeepSeek-V4-Pro est la version préliminaire de la série DeepSeek‑V4, mise à disposition en 2026. Ce modèle propose au total 1,6 trillion de paramètres (49 billion d'experts activés)

Lire la suite
ChatGPT : Attention à ces extensions Chrome malveillantes

ChatGPT : Attention à ces extensions Chrome malveillantes

Vos secrets sur ChatGPT sont-ils en sécurité ? L'engouement autour de ChatGPT a vu naître des milliers d'extensions Chrome promettant d'améliorer l'expérience utilisateur. Cependant, une étude r

Lire la suite
Smartphones à IA Agentique : La Révolution Mobile en Entreprise

Smartphones à IA Agentique : La Révolution Mobile en Entreprise

La percée de l'IA "faiseuse" Le lancement récent du prototype ZTE Nubia M153, propulsé par le modèle Doubao de ByteDance, marque un tournant décisif. Nous passons des assistants vocaux passifs à

Lire la suite
Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot

Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot

De K2 à K2.6 : le modèle agentic multimodal de Moonshot Le Kimi K2.6 de Moonshot AI représente une avancée majeure en combinant trois capacités exigeantes au sein d'un seul modèle open-weigh

Lire la suite
Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Qu'est-ce que Chroma Context-1 ? Chroma Context-1 est un modèle Mixture of Experts de 20B paramètres conçu spécifiquement pour la recherche agentique — des tâches de récupération nécessitant

Lire la suite
Claude Opus 4.5 : La Prochaine Génération de l'IA

Claude Opus 4.5 : La Prochaine Génération de l'IA

Introduction à Claude Opus 4.5 Claude Opus 4.5, sorti le 25 novembre 2025, représente une avancée significative dans le domaine de l'IA. Cette dernière version apporte un ensemble de nouvelles f

Lire la suite
Claude Opus 4.7 : le modèle phare d'Anthropic gagne en rigueur

Claude Opus 4.7 : le modèle phare d'Anthropic gagne en rigueur

Qu'est-ce que Claude Opus 4.7 Le 16 avril 2026, Anthropic publie Claude Opus 4.7 — une mise à jour ciblée de son modèle phare centrée sur un seul thème : la rigueur dans les tâches d'ingénie

Lire la suite
Cohere Transcribe : un modèle ASR de 2B qui domine le classement anglais

Cohere Transcribe : un modèle ASR de 2B qui domine le classement anglais

Qu'est-ce que Cohere Transcribe ? Cohere Transcribe 03-2026 est un modèle de reconnaissance automatique de la parole (ASR) publié par Cohere Labs. Avec 2 milliards de paramètres, il se class

Lire la suite
Gemma 4 31B : le modèle multimodal de Google avec 256K de contexte et mode thinking

Gemma 4 31B : le modèle multimodal de Google avec 256K de contexte et mode thinking

Qu'est-ce que Gemma 4 31B ? Gemma 4 31B (variante instruction-tuned : gemma-4-31B-it) est le dernier modèle multimodal open weights de Google, avec 30,7 milliards de paramètres. Il traite

Lire la suite
GLM-5.1 : 754B paramètres — le modèle phare de Z.ai pour l'ingénierie agentique

GLM-5.1 : 754B paramètres — le modèle phare de Z.ai pour l'ingénierie agentique

De GLM-5 à GLM-5.1 : le saut agentique Moins de deux semaines après la sortie de GLM-5, Z.ai (anciennement ZhipuAI) publie GLM-5.1 — un modèle Mixture of Experts de 754 milliards de paramètr

Lire la suite
GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI

GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI

Qu'est-ce que GLM-5 ? GLM-5 est un grand modèle de langage publié par ZhipuAI (智谱AI). Il possède 744 milliards de paramètres au total, dont seulement 40 milliards actifs à l'inférenc

Lire la suite
Google Snapseed : une nouvelle expérience photo arrive sur iPhone

Google Snapseed : une nouvelle expérience photo arrive sur iPhone

Introduction : Google surprend les photographes mobiles Google vient de frapper un grand coup dans l'écosystème iOS en lançant une application caméra dédiée, directement liée à sa célèbre suite d

Lire la suite
LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur

LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur

Qu'est-ce que LFM2.5-VL-450M La plupart des modèles vision-langage rivalisent sur l'échelle — des milliards de paramètres, des centaines d'heures GPU pour l'inférence. Liquid AI prend l'approche

Lire la suite
MiniMax-M2.7 : un modèle de 229B paramètres qui s'améliore lui-même

MiniMax-M2.7 : un modèle de 229B paramètres qui s'améliore lui-même

Qu'est-ce que MiniMax-M2.7 MiniMax-M2.7 est un modèle dense de 229 milliards de paramètres développé par MiniMax, un laboratoire d'IA basé à Pékin. Contrairement à la plupart des modèles fro

Lire la suite
Mistral Small 4 : Un Modèle d'IA Unifié qui Redéfinit l'Efficacité

Mistral Small 4 : Un Modèle d'IA Unifié qui Redéfinit l'Efficacité

Depuis quelques années, la course aux modèles de langage a souvent opposé deux extrêmes : les grands modèles puissants mais coûteux, et les petits modèles rapides mais limités. Mistral AI vient de br

Lire la suite
Mistral Devstral 2 : Le retour de l'IA de code souveraine

Mistral Devstral 2 : Le retour de l'IA de code souveraine

La contre-attaque européenne dans l'IA de code Avec le lancement de Devstral 2 et de sa version légère Devstral Small 2, Mistral AI reprend des parts de marché dans un secteur récemment dominé p

Lire la suite
Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Qu'est-ce que Nemotron Cascade 2 ? Nemotron Cascade 2 (30B-A3B) est un modèle open source publié par NVIDIA le 19 mars 2026. Son chiffre clé est trompeur : 30 milliards de paramètres au tota

Lire la suite
NVIDIA Nemotron-3 Super : un modèle 120B MoE qui tourne sur un seul GPU

NVIDIA Nemotron-3 Super : un modèle 120B MoE qui tourne sur un seul GPU

Le 11 mars 2026, NVIDIA a publié Nemotron-3 Super — un modèle qui occupe une position inhabituellement précise : 120 milliards de paramètres au total, seulement 12 milliards actifs lors de l'infé

Lire la suite
Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qu'est-ce que Qianfan-OCR ? Qianfan-OCR est un modèle de compréhension de documents publié par Baidu. Il convertit des images de documents — PDFs, scans, photos, captures d'écran — directeme

Lire la suite
Qwen3.5-27B Distillé par Claude 4.6 Opus : Un Moteur de Raisonnement Local

Qwen3.5-27B Distillé par Claude 4.6 Opus : Un Moteur de Raisonnement Local

De quoi s'agit-il ? Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled est un modèle de langage open source de 28 milliards de paramètres publié par Jackrong

Lire la suite
Projet Ava : Quand Razer enferme une IA dans un bocal

Projet Ava : Quand Razer enferme une IA dans un bocal

L'IA sort de l'écran avec Razer Au-delà des souris et des claviers RGB, Razer explore de nouveaux horizons avec le Projet Ava. Ce concept, présenté comme un "compagnon IA dans un bocal", vis

Lire la suite
Technologie éco-responsable et développement durable

Technologie éco-responsable et développement durable

Technologie et écologie : une alliance durable Chez Reeboot, nous croyons fermement que technologie et écologie peuvent aller de pair. Notre mission est de fournir des produits performants tout

Lire la suite
Le monstre Asus ROG Strix SCAR 18, VPN et santé : l'actu tech du jour

Le monstre Asus ROG Strix SCAR 18, VPN et santé : l'actu tech du jour

Introduction : un condensé d'innovations et de vigilance Le monde de la technologie ne s'arrête jamais, et ce matin, l'actualité nous offre un mélange fascinant de performances brutes, de géopoli

Lire la suite
Ubuntu 26.04 LTS : coreutils en Rust, Wayland exclusif et noyau 7.0

Ubuntu 26.04 LTS : coreutils en Rust, Wayland exclusif et noyau 7.0

Ubuntu 26.04 LTS : Resolute Raccoon Ubuntu 26.04 LTS, nom de code Resolute Raccoon, sort le 23 avril 2026. Le nom rend hommage à Steve Langasek, ancien responsable des releases Debian et Ubu

Lire la suite
Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel

Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel

Qu'est-ce que Voxtral-4B ? Voxtral-4B-TTS-2603 est un modèle de synthèse vocale (text-to-speech) publié par Mistral AI en mars 2026. Il convertit du texte en parole réaliste dans 9 langues,

Lire la suite
Windows 11 : Vos applications Android en plein écran sur PC

Windows 11 : Vos applications Android en plein écran sur PC

La fin des frontières entre mobile et PC Microsoft franchit une nouvelle étape majeure dans l'unification de ses systèmes. Grâce à une mise à jour de l'outil "Lien avec Windows" (Phone Link), le

Lire la suite