Type something to search...
MiniMax-M2.7 : un modèle de 229B paramètres qui s'améliore lui-même

MiniMax-M2.7 : un modèle de 229B paramètres qui s'améliore lui-même

Qu’est-ce que MiniMax-M2.7

MiniMax-M2.7 est un modèle dense de 229 milliards de paramètres développé par MiniMax, un laboratoire d’IA basé à Pékin. Contrairement à la plupart des modèles frontières qui itèrent via des cycles d’entraînement supervisés par des humains, la caractéristique distinctive de M2.7 est l’auto-évolution : le modèle a participé à sa propre boucle de post-entraînement, analysant de manière autonome ses trajectoires d’échec, modifiant du code et exécutant des évaluations sur plus de 100 tours d’optimisation — obtenant une amélioration de 30% sans intervention humaine.

Le résultat est un modèle qui égale GPT-5.3-Codex sur SWE-Pro et dépasse GPT-5.3 sur les benchmarks de travail professionnel, tout en restant entièrement open-weight sous licence Modified-MIT.


Architecture

M2.7 utilise une architecture Transformer dense avec 229B paramètres totaux. Le modèle supporte les formats de précision BF16, FP32 et FP8 (E4M3), et est livré avec des guides de déploiement pour SGLang, vLLM, Transformers, ModelScope et NVIDIA NIM.

L’architecture est conçue pour l’interaction agentique soutenue plutôt que la génération en un seul tour. MiniMax l’a optimisée pour gérer l’appel d’outils multi-tours, les mises à jour autonomes de mémoire et l’exécution de tâches sur de longues durées — le type de charge qui fait échouer la plupart des modèles après quelques dizaines d’étapes.


Résultats sur les benchmarks

Ingénierie logicielle

BenchmarkMiniMax-M2.7Référence
SWE-Pro56.2%égale GPT-5.3-Codex
SWE Multilingual76.5
Multi SWE Bench52.7
VIBE-Pro55.6%proche d’Opus 4.6
Terminal Bench 257.0%
NL2Repo39.8%

SWE-Pro évalue la résolution de problèmes multi-fichiers et multi-étapes dans des bases de code réelles. M2.7 égale la variante Codex de GPT-5.3 sur ce benchmark. VIBE-Pro — qui mesure le coding créatif et la génération d’interfaces — se situe à moins d’un point d’Opus 4.6.

Ingénierie ML

BenchmarkMiniMax-M2.7Détail
MLE Bench Lite66.6% taux de médailles9 or, 5 argent, 1 bronze (meilleur run)

MLE Bench Lite couvre 22 compétitions ML de type Kaggle. Le taux de médailles de 66.6% place M2.7 en deuxième position, derrière Opus 4.6 et GPT-5.4 uniquement.

Travail professionnel et utilisation d’outils

BenchmarkMiniMax-M2.7Référence
GDPval-AA ELO1495meilleur score open-weight, dépasse GPT-5.3
Toolathon46.3%top mondial
MM Claw Skills Compliance97%sur 40+ compétences complexes
MM Claw End-to-End62.7%proche de Sonnet 4.6

L’ELO GDPval-AA de 1495 est particulièrement remarquable — c’est le score le plus élevé parmi tous les modèles open-weight et il dépasse GPT-5.3 sur les tâches de traitement documentaire professionnel. MM Claw teste l’adhérence aux compétences complexes sur des interactions prolongées : 97% de conformité sur 40+ compétences (chacune dépassant 2 000 tokens) démontre un suivi d’instructions soutenu.


Ce qui le distingue : l’auto-évolution

M2.7 est le premier modèle de MiniMax qui participe activement à sa propre évolution. Pendant le post-entraînement, le modèle a exécuté des boucles d’optimisation autonomes : analyser ses propres trajectoires d’échec, modifier le code de scaffolding, lancer des évaluations et itérer — plus de 100 tours sans intervention humaine.

Cela a produit une amélioration de 30% sur les benchmarks internes. MiniMax rapporte qu’un harness d’agent de recherche construit sur M2.7 gère désormais 30 à 50% des workflows de leur équipe RL de manière autonome.

L’approche d’auto-évolution s’étend également au déploiement : M2.7 supporte les mises à jour autonomes de mémoire et la recherche dynamique d’outils, ce qui signifie qu’il peut adapter son comportement au sein d’une session en fonction de ce qu’il apprend.


Équipes d’agents et compétences complexes

Au-delà de la performance en agent unique, M2.7 supporte nativement la collaboration multi-agent — ce que MiniMax appelle les « équipes d’agents ». Cela inclut :

  • Identité de rôle stable : chaque agent dans une équipe maintient son rôle assigné sur des interactions prolongées
  • Prise de décision autonome : les agents peuvent décider indépendamment quand déléguer, escalader ou agir
  • Raisonnement adversarial : les agents peuvent contester les conclusions des autres, réduisant les hallucinations dans les configurations collaboratives

MiniMax a également construit des dizaines de compétences complexes pour les expériences de RL, chacune dépassant 2 000 tokens de comportement structuré. Le modèle maintient 97% d’adhérence à ces définitions de compétences pendant l’exécution — une métrique qu’ils appellent « conformité aux compétences ».

En production, M2.7 a démontré des capacités de raisonnement au niveau système : analyse de logs, analyse de traces, vérification de causes racines et récupération d’incidents de production en moins de 3 minutes sur plusieurs scénarios réels.


Déploiement

M2.7 est disponible via plusieurs canaux :

Pour le déploiement local, MiniMax recommande les frameworks suivants (par ordre de préférence) :

  1. SGLang — recommandation principale
  2. vLLM
  3. Transformers

Paramètres d’inférence recommandés : temperature=1.0, top_p=0.95, top_k=40.

39 variantes quantifiées sont disponibles pour le déploiement local via llama.cpp, LM Studio, Jan et Ollama.


Limites

MiniMax ne divulgue pas publiquement la longueur de la fenêtre de contexte ni les spécifications architecturales détaillées (nombre de couches, nombre de têtes d’attention, taille du vocabulaire) de M2.7. Le modèle est uniquement textuel — il supporte le traitement de documents bureautiques (Word, Excel, PPT) mais n’a pas de modalités natives de vision ou d’audio.

La capacité d’auto-évolution, bien qu’impressionnante sur les benchmarks internes, n’a pas été vérifiée de manière indépendante par des tiers. Les fonctionnalités d’équipes multi-agent nécessitent des configurations de harness spécifiques qui ne sont pas nécessairement simples à reproduire dans tous les scénarios de déploiement.


Conclusion

MiniMax-M2.7 introduit un paradigme d’entraînement véritablement novateur : un modèle qui participe à l’ingénierie de sa propre amélioration. Égaler GPT-5.3-Codex en ingénierie logicielle, dominer les modèles open-weight en travail professionnel (ELO 1495) et maintenir 97% de conformité sur des tâches agentiques complexes font de M2.7 un concurrent sérieux pour les équipes construisant des agents autonomes de code et de recherche.

La licence Modified-MIT et le large support de déploiement (SGLang, vLLM, NIM, plus 39 formats de quantification) abaissent la barrière à l’hébergement autonome. Pour les équipes qui ont besoin d’un modèle open-weight capable de travail multi-agent soutenu, M2.7 est désormais la référence à battre.

Modèle : MiniMaxAI/MiniMax-M2.7 · Blog : minimax.io/news/minimax-m27-en

Tags :
  • IA
  • MiniMax
  • LLM
  • Agentique
  • Open Source
  • Code
Share :

Related Posts

DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace

DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace

Introduction DeepSeek-V4-Pro est la version préliminaire de la série DeepSeek‑V4, mise à disposition en 2026. Ce modèle propose au total 1,6 trillion de paramètres (49 billion d'experts activés)

Lire la suite
ChatGPT : Attention à ces extensions Chrome malveillantes

ChatGPT : Attention à ces extensions Chrome malveillantes

Vos secrets sur ChatGPT sont-ils en sécurité ? L'engouement autour de ChatGPT a vu naître des milliers d'extensions Chrome promettant d'améliorer l'expérience utilisateur. Cependant, une étude r

Lire la suite
Smartphones à IA Agentique : La Révolution Mobile en Entreprise

Smartphones à IA Agentique : La Révolution Mobile en Entreprise

La percée de l'IA "faiseuse" Le lancement récent du prototype ZTE Nubia M153, propulsé par le modèle Doubao de ByteDance, marque un tournant décisif. Nous passons des assistants vocaux passifs à

Lire la suite
Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot

Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot

De K2 à K2.6 : le modèle agentic multimodal de Moonshot Le Kimi K2.6 de Moonshot AI représente une avancée majeure en combinant trois capacités exigeantes au sein d'un seul modèle open-weigh

Lire la suite
MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT

MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT

De V2-Pro à V2.5-Pro : la percée du contexte long La famille MiMo de XiaoMi s'est rapidement imposée parmi les modèles open-weight les plus performants. MiMo-V2.5-Pro est la dernière itérati

Lire la suite
Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Qu'est-ce que Chroma Context-1 ? Chroma Context-1 est un modèle Mixture of Experts de 20B paramètres conçu spécifiquement pour la recherche agentique — des tâches de récupération nécessitant

Lire la suite
Claude Opus 4.5 : La Prochaine Génération de l'IA

Claude Opus 4.5 : La Prochaine Génération de l'IA

Introduction à Claude Opus 4.5 Claude Opus 4.5, sorti le 25 novembre 2025, représente une avancée significative dans le domaine de l'IA. Cette dernière version apporte un ensemble de nouvelles f

Lire la suite
Claude Opus 4.7 : le modèle phare d'Anthropic gagne en rigueur

Claude Opus 4.7 : le modèle phare d'Anthropic gagne en rigueur

Qu'est-ce que Claude Opus 4.7 Le 16 avril 2026, Anthropic publie Claude Opus 4.7 — une mise à jour ciblée de son modèle phare centrée sur un seul thème : la rigueur dans les tâches d'ingénie

Lire la suite
Cohere Transcribe : un modèle ASR de 2B qui domine le classement anglais

Cohere Transcribe : un modèle ASR de 2B qui domine le classement anglais

Qu'est-ce que Cohere Transcribe ? Cohere Transcribe 03-2026 est un modèle de reconnaissance automatique de la parole (ASR) publié par Cohere Labs. Avec 2 milliards de paramètres, il se class

Lire la suite
Gemma 4 31B : le modèle multimodal de Google avec 256K de contexte et mode thinking

Gemma 4 31B : le modèle multimodal de Google avec 256K de contexte et mode thinking

Qu'est-ce que Gemma 4 31B ? Gemma 4 31B (variante instruction-tuned : gemma-4-31B-it) est le dernier modèle multimodal open weights de Google, avec 30,7 milliards de paramètres. Il traite

Lire la suite
GLM-5.1 : 754B paramètres — le modèle phare de Z.ai pour l'ingénierie agentique

GLM-5.1 : 754B paramètres — le modèle phare de Z.ai pour l'ingénierie agentique

De GLM-5 à GLM-5.1 : le saut agentique Moins de deux semaines après la sortie de GLM-5, Z.ai (anciennement ZhipuAI) publie GLM-5.1 — un modèle Mixture of Experts de 754 milliards de paramètr

Lire la suite
GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI

GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI

Qu'est-ce que GLM-5 ? GLM-5 est un grand modèle de langage publié par ZhipuAI (智谱AI). Il possède 744 milliards de paramètres au total, dont seulement 40 milliards actifs à l'inférenc

Lire la suite
Google Snapseed : une nouvelle expérience photo arrive sur iPhone

Google Snapseed : une nouvelle expérience photo arrive sur iPhone

Introduction : Google surprend les photographes mobiles Google vient de frapper un grand coup dans l'écosystème iOS en lançant une application caméra dédiée, directement liée à sa célèbre suite d

Lire la suite
LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur

LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur

Qu'est-ce que LFM2.5-VL-450M La plupart des modèles vision-langage rivalisent sur l'échelle — des milliards de paramètres, des centaines d'heures GPU pour l'inférence. Liquid AI prend l'approche

Lire la suite
Mistral Small 4 : Un Modèle d'IA Unifié qui Redéfinit l'Efficacité

Mistral Small 4 : Un Modèle d'IA Unifié qui Redéfinit l'Efficacité

Depuis quelques années, la course aux modèles de langage a souvent opposé deux extrêmes : les grands modèles puissants mais coûteux, et les petits modèles rapides mais limités. Mistral AI vient de br

Lire la suite
Mistral Devstral 2 : Le retour de l'IA de code souveraine

Mistral Devstral 2 : Le retour de l'IA de code souveraine

La contre-attaque européenne dans l'IA de code Avec le lancement de Devstral 2 et de sa version légère Devstral Small 2, Mistral AI reprend des parts de marché dans un secteur récemment dominé p

Lire la suite
Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Qu'est-ce que Nemotron Cascade 2 ? Nemotron Cascade 2 (30B-A3B) est un modèle open source publié par NVIDIA le 19 mars 2026. Son chiffre clé est trompeur : 30 milliards de paramètres au tota

Lire la suite
NVIDIA Nemotron-3 Super : un modèle 120B MoE qui tourne sur un seul GPU

NVIDIA Nemotron-3 Super : un modèle 120B MoE qui tourne sur un seul GPU

Le 11 mars 2026, NVIDIA a publié Nemotron-3 Super — un modèle qui occupe une position inhabituellement précise : 120 milliards de paramètres au total, seulement 12 milliards actifs lors de l'infé

Lire la suite
Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qu'est-ce que Qianfan-OCR ? Qianfan-OCR est un modèle de compréhension de documents publié par Baidu. Il convertit des images de documents — PDFs, scans, photos, captures d'écran — directeme

Lire la suite
Qwen3.5-27B Distillé par Claude 4.6 Opus : Un Moteur de Raisonnement Local

Qwen3.5-27B Distillé par Claude 4.6 Opus : Un Moteur de Raisonnement Local

De quoi s'agit-il ? Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled est un modèle de langage open source de 28 milliards de paramètres publié par Jackrong

Lire la suite
Projet Ava : Quand Razer enferme une IA dans un bocal

Projet Ava : Quand Razer enferme une IA dans un bocal

L'IA sort de l'écran avec Razer Au-delà des souris et des claviers RGB, Razer explore de nouveaux horizons avec le Projet Ava. Ce concept, présenté comme un "compagnon IA dans un bocal", vis

Lire la suite
Technologie éco-responsable et développement durable

Technologie éco-responsable et développement durable

Technologie et écologie : une alliance durable Chez Reeboot, nous croyons fermement que technologie et écologie peuvent aller de pair. Notre mission est de fournir des produits performants tout

Lire la suite
Le monstre Asus ROG Strix SCAR 18, VPN et santé : l'actu tech du jour

Le monstre Asus ROG Strix SCAR 18, VPN et santé : l'actu tech du jour

Introduction : un condensé d'innovations et de vigilance Le monde de la technologie ne s'arrête jamais, et ce matin, l'actualité nous offre un mélange fascinant de performances brutes, de géopoli

Lire la suite
Ubuntu 26.04 LTS : coreutils en Rust, Wayland exclusif et noyau 7.0

Ubuntu 26.04 LTS : coreutils en Rust, Wayland exclusif et noyau 7.0

Ubuntu 26.04 LTS : Resolute Raccoon Ubuntu 26.04 LTS, nom de code Resolute Raccoon, sort le 23 avril 2026. Le nom rend hommage à Steve Langasek, ancien responsable des releases Debian et Ubu

Lire la suite
Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel

Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel

Qu'est-ce que Voxtral-4B ? Voxtral-4B-TTS-2603 est un modèle de synthèse vocale (text-to-speech) publié par Mistral AI en mars 2026. Il convertit du texte en parole réaliste dans 9 langues,

Lire la suite
Windows 11 : Vos applications Android en plein écran sur PC

Windows 11 : Vos applications Android en plein écran sur PC

La fin des frontières entre mobile et PC Microsoft franchit une nouvelle étape majeure dans l'unification de ses systèmes. Grâce à une mise à jour de l'outil "Lien avec Windows" (Phone Link), le

Lire la suite