Type something to search...
Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot

Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot

De K2 à K2.6 : le modèle agentic multimodal de Moonshot

Le Kimi K2.6 de Moonshot AI représente une avancée majeure en combinant trois capacités exigeantes au sein d’un seul modèle open-weight : l’orchestration agentic à grande échelle, les performances en codage avec contexte long, et la vision multimodale native — le tout sous licence MIT modifiée.

D’un total de 1 trillion de paramètres avec 32 milliards d’actifs, K2.6 utilise l’Attention Multi-Tête Latente (MLA) pour un traitement efficace des contextes longs, et intègre l’encodeur multimodal MoonViT pour une compréhension native d’images et de vidéos. Le modèle ne se contente pas d’exceller sur les benchmarks — il est livré avec un framework d’essaim d’agents capable de lancer jusqu’à 300 sous-agents à travers 4000 étapes coordonnées, et un CLI d’agent de codage qui transforme des invites en langage naturel directement en UI prête pour la production.


Architecture : MoE avec MLA et Fusion de Vision

K2.6 empile un fondationnel MoE dense avec un encodeur multimodal, créant un modèle unifié qui traite le texte et la vision de manière entrelacée.

Attention Multi-Tête Latente (MLA).
Le MLA compresse le cache KV dans un espace latent de faible dimension, puis l’étend via des projections linéaires apprises spécifiques à la tâche lors du calcul de l’attention. Cela réduit la mémoire KV par couche d’environ la moitié par rapport à l’attention standard, rendant les contextes de 256K tokens pratiques sans exigences GPU excessives.

MoE (384 experts, 8 routés par token + 1 partagé).
L’architecture à 61 couches comprend 1 couche dense (fusion de vision au niveau de l’entrée) et 60 couches MoE. Chaque token active 8 des 384 experts, plus 1 expert partagé par lequel tous les tokens passent. Cela génère 32 milliards de paramètres actifs sur 1T au total — un ratio de densité 1:31 qui maintient l’inférence efficace.

Encodeur multimodal MoonViT (400M).
L’encodeur de vision traite les images brutes et les frames vidéo en séquences de tokens qui se fusionnent directement dans le flux de tokens du modèle linguistique. MoonViT utilise un transformer de type ViT avec 400 millions de paramètres, offrant une ancrage visuel solide sans nécessiter de modèle de vision séparé. Le traitement entrelacé texte-vision signifie que des questions comme « explique cette capture d’écran d’interface » peuvent être répondues avec le même modèle qui écrit le HTML/CSS pour l’interface.

Activation et vocabulaire.
L’activation SwiGLU remplace le GELU standard (des études d’ablation ont montré une amélioration de la stabilité du routage MoE). Le vocabulaire de 160K est significativement plus large que la plage typique 32K–100K, réduisant la surcharge de tokenisation pour le texte non-anglais et le code.


Résultats des benchmarks

Ingénierie agentic et codage

BenchmarkKimi K2.6
SWE-Bench Pro58,6 %
SWE-Bench Verified80,2 %
Terminal-Bench 2.066,7 %
LLM-Full34,7
BrowseComp83,2
Toolathlon50,0
MCPMark55,9

K2.6 mène parmi les modèles open-weight sur SWE-Bench Pro (58,6 %), dépassant la plupart des alternatives. Le score BrowseComp de 83,2 est particulièrement notable — il mesure la capacité à naviguer sur le web, synthétiser l’information de sources multiples, et produire une réponse correcte, ce qui correspond à la capacité fondamentale des agents de recherche autonomes.

Mathématiques et raisonnement

BenchmarkKimi K2.6
AIME 202696,4 %
HMMT92,7 %
GPQA-Diamond90,5 %
HLE avec outils54,0
DeepSearchQA92,5

Les performances mathématiques sont parmi les meilleures de tout modèle open — 96,4 % sur l’AIME place K2.6 au même niveau, ou devant, des modèles significativement plus grands en nombre de paramètres. DeepSearchQA (92,5) évalue la capacité de recherche profonde, où le modèle doit interroger des sources de connaissances et synthétiser des réponses complètes.

Codage

BenchmarkKimi K2.6
LiveCodeBench v689,6 %

LiveCodeBench v6 teste des problèmes de programmation réels provenant de compétitions actives. Un score de 89,6 % démontre la capacité de K2.6 à résoudre des défis de codage新颖 sous pression temporelle, une compétence aiguisée par son entraînement dédié en agent de codage.

Vision et multimodal

BenchmarkKimi K2.6
MMMU-Pro79,4 %
V*96,9 %

MMMU-Pro évalue la compréhension multimodale multi-disciplinaire, tandis que V* mesure les performances sur des tâches de raisonnement visuel complexes. Les deux scores sont solides pour un modèle open avec vision intégrée.


Capacités agentic

K2.6 est conçu pour l’opération autonome. Trois capacités se distinguent :

Essaim d’agents (300 sous-agents, 4000 étapes).
K2.6 peut lancer jusqu’à 300 sous-agents fonctionnant en parallèle, chacun gérant une sous-tâche différente. L’orchestrateur coordonne à travers plus de 4000 étapes totales — réflexion, appels d’outils, vérification des résultats, et ajustement de la stratégie. Il ne s’agit pas d’une simple boucle d’appel d’outils ; c’est une architecture d’agents hiérarchique où chaque sous-agent peut lancer ses propres appels d’outils.

Conception pilotée par le codage.
Une capacité unique : fournissez une invite en langage naturel décrivant une interface, et K2.6 génère du code HTML/CSS/JS prêt pour la production. Le pipeline invite → interface tire parti d’une compréhension profonde à la fois de l’intention de conception et des conventions de l’ingénierie frontend.

Orchestration proactive et ouverte.
K2.6 supporte l’exécution d’agents de fond 24/7 — des agents qui fonctionnent de manière autonome en arrière-plan, vérifiant des horaires, traitant des données, et rapportant des résultats. De plus, un mode « Ouvert » permet d’observer et de diriger les agents en temps réel.


Comparaison avec les autres modèles Kimi Moonshot

DimensionKimi K2.6
Paramètres totaux1T
Paramètres actifs32B
ArchitectureMoE + MLA + MoonViT
Couches61 (1 dense + 60 MoE)
Experts384 / 8 + 1 partagé
Contexte256K
VisionMoonViT 400M
Vocabulaire160K
QuantificationINT4 native
SWE-Bench Pro58,6 %
AIME 202696,4 %
LicenceMIT modifiée

Déploiement

K2.6 est supporté par plusieurs frameworks d’inférence :

  • vLLM (dernière version)
  • SGLang (dernière version)
  • KTransformers (pile d’inférence personnalisée de Moonshot)

Une API est disponible sur platform.moonshot.ai, compatible avec les formats d’API OpenAI et Anthropic.

Le modèle supporte nativement la quantification INT4, qui peut être exploitée pour un déploiement économe en mémoire sur du matériel grand public avec une perte d’accuracy minimale.

Fonctionnalités supplémentaires :

  • Réflexion entrelacée et appel multi-étapes d’outils — le modèle réfléchit, agit, observe, et répète en une seule génération
  • Mode Préservation de Réflexion — sauvegarder et réutiliser explicitement les chaînes de raisonnement à travers plusieurs rounds
  • Kimi Code CLI — un framework d’agent de codage qui enveloppe K2.6 comme un outil CLI avec mémoire deworkspace persistante

Licence et accès

Kimi K2.6 est publié sous une licence MIT modifiée — la plupart des permissions du MIT standard s’appliquent, avec des termes additionnels mineurs. Consultez le dépôt officiel pour les détails complets.

Disponible sur : Moonshot AI / Kimi‑K2.6


Citation

@article{moonshot2026kimi-k26,
  title={Kimi K2.6: Scaling Agent Orchestration with Multimodal Integration},
  author={Moonshot AI},
  journal={arXiv preprint},
  year={2026},
  url={https://arxiv.org/abs/2602.02276}
}
Tags :
  • IA
  • Moonshot
  • LLM
  • MoE
  • Agentic
  • Open Source
  • Multimodal
  • Vision
  • Long Context
  • Coding
Share :

Related Posts

DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace

DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace

Introduction DeepSeek-V4-Pro est la version préliminaire de la série DeepSeek‑V4, mise à disposition en 2026. Ce modèle propose au total 1,6 trillion de paramètres (49 billion d'experts activés)

Lire la suite
ChatGPT : Attention à ces extensions Chrome malveillantes

ChatGPT : Attention à ces extensions Chrome malveillantes

Vos secrets sur ChatGPT sont-ils en sécurité ? L'engouement autour de ChatGPT a vu naître des milliers d'extensions Chrome promettant d'améliorer l'expérience utilisateur. Cependant, une étude r

Lire la suite
Smartphones à IA Agentique : La Révolution Mobile en Entreprise

Smartphones à IA Agentique : La Révolution Mobile en Entreprise

La percée de l'IA "faiseuse" Le lancement récent du prototype ZTE Nubia M153, propulsé par le modèle Doubao de ByteDance, marque un tournant décisif. Nous passons des assistants vocaux passifs à

Lire la suite
MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT

MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT

De V2-Pro à V2.5-Pro : la percée du contexte long La famille MiMo de XiaoMi s'est rapidement imposée parmi les modèles open-weight les plus performants. MiMo-V2.5-Pro est la dernière itérati

Lire la suite
Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Qu'est-ce que Chroma Context-1 ? Chroma Context-1 est un modèle Mixture of Experts de 20B paramètres conçu spécifiquement pour la recherche agentique — des tâches de récupération nécessitant

Lire la suite
Claude Opus 4.5 : La Prochaine Génération de l'IA

Claude Opus 4.5 : La Prochaine Génération de l'IA

Introduction à Claude Opus 4.5 Claude Opus 4.5, sorti le 25 novembre 2025, représente une avancée significative dans le domaine de l'IA. Cette dernière version apporte un ensemble de nouvelles f

Lire la suite
Claude Opus 4.7 : le modèle phare d'Anthropic gagne en rigueur

Claude Opus 4.7 : le modèle phare d'Anthropic gagne en rigueur

Qu'est-ce que Claude Opus 4.7 Le 16 avril 2026, Anthropic publie Claude Opus 4.7 — une mise à jour ciblée de son modèle phare centrée sur un seul thème : la rigueur dans les tâches d'ingénie

Lire la suite
Cohere Transcribe : un modèle ASR de 2B qui domine le classement anglais

Cohere Transcribe : un modèle ASR de 2B qui domine le classement anglais

Qu'est-ce que Cohere Transcribe ? Cohere Transcribe 03-2026 est un modèle de reconnaissance automatique de la parole (ASR) publié par Cohere Labs. Avec 2 milliards de paramètres, il se class

Lire la suite
Gemma 4 31B : le modèle multimodal de Google avec 256K de contexte et mode thinking

Gemma 4 31B : le modèle multimodal de Google avec 256K de contexte et mode thinking

Qu'est-ce que Gemma 4 31B ? Gemma 4 31B (variante instruction-tuned : gemma-4-31B-it) est le dernier modèle multimodal open weights de Google, avec 30,7 milliards de paramètres. Il traite

Lire la suite
GLM-5.1 : 754B paramètres — le modèle phare de Z.ai pour l'ingénierie agentique

GLM-5.1 : 754B paramètres — le modèle phare de Z.ai pour l'ingénierie agentique

De GLM-5 à GLM-5.1 : le saut agentique Moins de deux semaines après la sortie de GLM-5, Z.ai (anciennement ZhipuAI) publie GLM-5.1 — un modèle Mixture of Experts de 754 milliards de paramètr

Lire la suite
GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI

GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI

Qu'est-ce que GLM-5 ? GLM-5 est un grand modèle de langage publié par ZhipuAI (智谱AI). Il possède 744 milliards de paramètres au total, dont seulement 40 milliards actifs à l'inférenc

Lire la suite
Google Snapseed : une nouvelle expérience photo arrive sur iPhone

Google Snapseed : une nouvelle expérience photo arrive sur iPhone

Introduction : Google surprend les photographes mobiles Google vient de frapper un grand coup dans l'écosystème iOS en lançant une application caméra dédiée, directement liée à sa célèbre suite d

Lire la suite
LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur

LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur

Qu'est-ce que LFM2.5-VL-450M La plupart des modèles vision-langage rivalisent sur l'échelle — des milliards de paramètres, des centaines d'heures GPU pour l'inférence. Liquid AI prend l'approche

Lire la suite
MiniMax-M2.7 : un modèle de 229B paramètres qui s'améliore lui-même

MiniMax-M2.7 : un modèle de 229B paramètres qui s'améliore lui-même

Qu'est-ce que MiniMax-M2.7 MiniMax-M2.7 est un modèle dense de 229 milliards de paramètres développé par MiniMax, un laboratoire d'IA basé à Pékin. Contrairement à la plupart des modèles fro

Lire la suite
Mistral Small 4 : Un Modèle d'IA Unifié qui Redéfinit l'Efficacité

Mistral Small 4 : Un Modèle d'IA Unifié qui Redéfinit l'Efficacité

Depuis quelques années, la course aux modèles de langage a souvent opposé deux extrêmes : les grands modèles puissants mais coûteux, et les petits modèles rapides mais limités. Mistral AI vient de br

Lire la suite
Mistral Devstral 2 : Le retour de l'IA de code souveraine

Mistral Devstral 2 : Le retour de l'IA de code souveraine

La contre-attaque européenne dans l'IA de code Avec le lancement de Devstral 2 et de sa version légère Devstral Small 2, Mistral AI reprend des parts de marché dans un secteur récemment dominé p

Lire la suite
Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Qu'est-ce que Nemotron Cascade 2 ? Nemotron Cascade 2 (30B-A3B) est un modèle open source publié par NVIDIA le 19 mars 2026. Son chiffre clé est trompeur : 30 milliards de paramètres au tota

Lire la suite
NVIDIA Nemotron-3 Super : un modèle 120B MoE qui tourne sur un seul GPU

NVIDIA Nemotron-3 Super : un modèle 120B MoE qui tourne sur un seul GPU

Le 11 mars 2026, NVIDIA a publié Nemotron-3 Super — un modèle qui occupe une position inhabituellement précise : 120 milliards de paramètres au total, seulement 12 milliards actifs lors de l'infé

Lire la suite
Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qu'est-ce que Qianfan-OCR ? Qianfan-OCR est un modèle de compréhension de documents publié par Baidu. Il convertit des images de documents — PDFs, scans, photos, captures d'écran — directeme

Lire la suite
Qwen3.5-27B Distillé par Claude 4.6 Opus : Un Moteur de Raisonnement Local

Qwen3.5-27B Distillé par Claude 4.6 Opus : Un Moteur de Raisonnement Local

De quoi s'agit-il ? Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled est un modèle de langage open source de 28 milliards de paramètres publié par Jackrong

Lire la suite
Projet Ava : Quand Razer enferme une IA dans un bocal

Projet Ava : Quand Razer enferme une IA dans un bocal

L'IA sort de l'écran avec Razer Au-delà des souris et des claviers RGB, Razer explore de nouveaux horizons avec le Projet Ava. Ce concept, présenté comme un "compagnon IA dans un bocal", vis

Lire la suite
Technologie éco-responsable et développement durable

Technologie éco-responsable et développement durable

Technologie et écologie : une alliance durable Chez Reeboot, nous croyons fermement que technologie et écologie peuvent aller de pair. Notre mission est de fournir des produits performants tout

Lire la suite
Le monstre Asus ROG Strix SCAR 18, VPN et santé : l'actu tech du jour

Le monstre Asus ROG Strix SCAR 18, VPN et santé : l'actu tech du jour

Introduction : un condensé d'innovations et de vigilance Le monde de la technologie ne s'arrête jamais, et ce matin, l'actualité nous offre un mélange fascinant de performances brutes, de géopoli

Lire la suite
Ubuntu 26.04 LTS : coreutils en Rust, Wayland exclusif et noyau 7.0

Ubuntu 26.04 LTS : coreutils en Rust, Wayland exclusif et noyau 7.0

Ubuntu 26.04 LTS : Resolute Raccoon Ubuntu 26.04 LTS, nom de code Resolute Raccoon, sort le 23 avril 2026. Le nom rend hommage à Steve Langasek, ancien responsable des releases Debian et Ubu

Lire la suite
Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel

Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel

Qu'est-ce que Voxtral-4B ? Voxtral-4B-TTS-2603 est un modèle de synthèse vocale (text-to-speech) publié par Mistral AI en mars 2026. Il convertit du texte en parole réaliste dans 9 langues,

Lire la suite
Windows 11 : Vos applications Android en plein écran sur PC

Windows 11 : Vos applications Android en plein écran sur PC

La fin des frontières entre mobile et PC Microsoft franchit une nouvelle étape majeure dans l'unification de ses systèmes. Grâce à une mise à jour de l'outil "Lien avec Windows" (Phone Link), le

Lire la suite