Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot
- Bastien
- 01 May, 2026
De K2 à K2.6 : le modèle agentic multimodal de Moonshot
Le Kimi K2.6 de Moonshot AI représente une avancée majeure en combinant trois capacités exigeantes au sein d’un seul modèle open-weight : l’orchestration agentic à grande échelle, les performances en codage avec contexte long, et la vision multimodale native — le tout sous licence MIT modifiée.
D’un total de 1 trillion de paramètres avec 32 milliards d’actifs, K2.6 utilise l’Attention Multi-Tête Latente (MLA) pour un traitement efficace des contextes longs, et intègre l’encodeur multimodal MoonViT pour une compréhension native d’images et de vidéos. Le modèle ne se contente pas d’exceller sur les benchmarks — il est livré avec un framework d’essaim d’agents capable de lancer jusqu’à 300 sous-agents à travers 4000 étapes coordonnées, et un CLI d’agent de codage qui transforme des invites en langage naturel directement en UI prête pour la production.
Architecture : MoE avec MLA et Fusion de Vision
K2.6 empile un fondationnel MoE dense avec un encodeur multimodal, créant un modèle unifié qui traite le texte et la vision de manière entrelacée.
Attention Multi-Tête Latente (MLA).
Le MLA compresse le cache KV dans un espace latent de faible dimension, puis l’étend via des projections linéaires apprises spécifiques à la tâche lors du calcul de l’attention. Cela réduit la mémoire KV par couche d’environ la moitié par rapport à l’attention standard, rendant les contextes de 256K tokens pratiques sans exigences GPU excessives.
MoE (384 experts, 8 routés par token + 1 partagé).
L’architecture à 61 couches comprend 1 couche dense (fusion de vision au niveau de l’entrée) et 60 couches MoE. Chaque token active 8 des 384 experts, plus 1 expert partagé par lequel tous les tokens passent. Cela génère 32 milliards de paramètres actifs sur 1T au total — un ratio de densité 1:31 qui maintient l’inférence efficace.
Encodeur multimodal MoonViT (400M).
L’encodeur de vision traite les images brutes et les frames vidéo en séquences de tokens qui se fusionnent directement dans le flux de tokens du modèle linguistique. MoonViT utilise un transformer de type ViT avec 400 millions de paramètres, offrant une ancrage visuel solide sans nécessiter de modèle de vision séparé. Le traitement entrelacé texte-vision signifie que des questions comme « explique cette capture d’écran d’interface » peuvent être répondues avec le même modèle qui écrit le HTML/CSS pour l’interface.
Activation et vocabulaire.
L’activation SwiGLU remplace le GELU standard (des études d’ablation ont montré une amélioration de la stabilité du routage MoE). Le vocabulaire de 160K est significativement plus large que la plage typique 32K–100K, réduisant la surcharge de tokenisation pour le texte non-anglais et le code.
Résultats des benchmarks
Ingénierie agentic et codage
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Pro | 58,6 % |
| SWE-Bench Verified | 80,2 % |
| Terminal-Bench 2.0 | 66,7 % |
| LLM-Full | 34,7 |
| BrowseComp | 83,2 |
| Toolathlon | 50,0 |
| MCPMark | 55,9 |
K2.6 mène parmi les modèles open-weight sur SWE-Bench Pro (58,6 %), dépassant la plupart des alternatives. Le score BrowseComp de 83,2 est particulièrement notable — il mesure la capacité à naviguer sur le web, synthétiser l’information de sources multiples, et produire une réponse correcte, ce qui correspond à la capacité fondamentale des agents de recherche autonomes.
Mathématiques et raisonnement
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | 96,4 % |
| HMMT | 92,7 % |
| GPQA-Diamond | 90,5 % |
| HLE avec outils | 54,0 |
| DeepSearchQA | 92,5 |
Les performances mathématiques sont parmi les meilleures de tout modèle open — 96,4 % sur l’AIME place K2.6 au même niveau, ou devant, des modèles significativement plus grands en nombre de paramètres. DeepSearchQA (92,5) évalue la capacité de recherche profonde, où le modèle doit interroger des sources de connaissances et synthétiser des réponses complètes.
Codage
| Benchmark | Kimi K2.6 |
|---|---|
| LiveCodeBench v6 | 89,6 % |
LiveCodeBench v6 teste des problèmes de programmation réels provenant de compétitions actives. Un score de 89,6 % démontre la capacité de K2.6 à résoudre des défis de codage新颖 sous pression temporelle, une compétence aiguisée par son entraînement dédié en agent de codage.
Vision et multimodal
| Benchmark | Kimi K2.6 |
|---|---|
| MMMU-Pro | 79,4 % |
| V* | 96,9 % |
MMMU-Pro évalue la compréhension multimodale multi-disciplinaire, tandis que V* mesure les performances sur des tâches de raisonnement visuel complexes. Les deux scores sont solides pour un modèle open avec vision intégrée.
Capacités agentic
K2.6 est conçu pour l’opération autonome. Trois capacités se distinguent :
Essaim d’agents (300 sous-agents, 4000 étapes).
K2.6 peut lancer jusqu’à 300 sous-agents fonctionnant en parallèle, chacun gérant une sous-tâche différente. L’orchestrateur coordonne à travers plus de 4000 étapes totales — réflexion, appels d’outils, vérification des résultats, et ajustement de la stratégie. Il ne s’agit pas d’une simple boucle d’appel d’outils ; c’est une architecture d’agents hiérarchique où chaque sous-agent peut lancer ses propres appels d’outils.
Conception pilotée par le codage.
Une capacité unique : fournissez une invite en langage naturel décrivant une interface, et K2.6 génère du code HTML/CSS/JS prêt pour la production. Le pipeline invite → interface tire parti d’une compréhension profonde à la fois de l’intention de conception et des conventions de l’ingénierie frontend.
Orchestration proactive et ouverte.
K2.6 supporte l’exécution d’agents de fond 24/7 — des agents qui fonctionnent de manière autonome en arrière-plan, vérifiant des horaires, traitant des données, et rapportant des résultats. De plus, un mode « Ouvert » permet d’observer et de diriger les agents en temps réel.
Comparaison avec les autres modèles Kimi Moonshot
| Dimension | Kimi K2.6 |
|---|---|
| Paramètres totaux | 1T |
| Paramètres actifs | 32B |
| Architecture | MoE + MLA + MoonViT |
| Couches | 61 (1 dense + 60 MoE) |
| Experts | 384 / 8 + 1 partagé |
| Contexte | 256K |
| Vision | MoonViT 400M |
| Vocabulaire | 160K |
| Quantification | INT4 native |
| SWE-Bench Pro | 58,6 % |
| AIME 2026 | 96,4 % |
| Licence | MIT modifiée |
Déploiement
K2.6 est supporté par plusieurs frameworks d’inférence :
- vLLM (dernière version)
- SGLang (dernière version)
- KTransformers (pile d’inférence personnalisée de Moonshot)
Une API est disponible sur platform.moonshot.ai, compatible avec les formats d’API OpenAI et Anthropic.
Le modèle supporte nativement la quantification INT4, qui peut être exploitée pour un déploiement économe en mémoire sur du matériel grand public avec une perte d’accuracy minimale.
Fonctionnalités supplémentaires :
- Réflexion entrelacée et appel multi-étapes d’outils — le modèle réfléchit, agit, observe, et répète en une seule génération
- Mode Préservation de Réflexion — sauvegarder et réutiliser explicitement les chaînes de raisonnement à travers plusieurs rounds
- Kimi Code CLI — un framework d’agent de codage qui enveloppe K2.6 comme un outil CLI avec mémoire deworkspace persistante
Licence et accès
Kimi K2.6 est publié sous une licence MIT modifiée — la plupart des permissions du MIT standard s’appliquent, avec des termes additionnels mineurs. Consultez le dépôt officiel pour les détails complets.
Disponible sur : Moonshot AI / Kimi‑K2.6
Citation
@article{moonshot2026kimi-k26,
title={Kimi K2.6: Scaling Agent Orchestration with Multimodal Integration},
author={Moonshot AI},
journal={arXiv preprint},
year={2026},
url={https://arxiv.org/abs/2602.02276}
}
Tags :
- IA
- Moonshot
- LLM
- MoE
- Agentic
- Open Source
- Multimodal
- Vision
- Long Context
- Coding