Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte
- Bastien
- 03 Apr, 2026
Qu’est-ce que Chroma Context-1 ?
Chroma Context-1 est un modèle Mixture of Experts de 20B paramètres conçu spécifiquement pour la recherche agentique — des tâches de récupération nécessitant plusieurs étapes, une décomposition des requêtes et une auto-correction. Il est publié par Chroma (la société derrière la base de données vectorielle open source du même nom) sous licence Apache 2.0.
La fonctionnalité distinctive du modèle est l’auto-édition du contexte : il peut éliminer sélectivement les documents non pertinents de sa propre fenêtre de contexte pendant la recherche multi-étapes, maintenant la qualité sur de longs horizons de recherche sans l’accumulation qui dégrade typiquement les pipelines RAG.
Architecture
- Modèle de base : GPT-OSS-20B (Mixture of Experts)
- Entraînement : SFT + RL via CISPO (un objectif d’apprentissage par renforcement), avec apprentissage par curriculum progressif sur des domaines web, juridique et finance
- Précision : BF16 (checkpoint quantifié MXFP4 à venir)
L’architecture MoE implique que seule une fraction des paramètres est active par passage, ce qui contribue à l’avantage de vitesse du modèle par rapport aux alternatives denses.
Capacités clés
Décomposition de requêtes
Context-1 décompose les questions complexes à contraintes multiples en sous-requêtes ciblées, puis les exécute systématiquement plutôt que de tenter une réponse à partir d’un seul passage de récupération.
Appels d’outils en parallèle
Le modèle effectue en moyenne 2,56 appels d’outils par tour, réduisant le nombre total de tours nécessaires et minimisant la latence de bout en bout. C’est un comportement appris à l’entraînement, pas une astuce de prompt engineering — le modèle a appris à grouper ses étapes de collecte d’informations.
Auto-édition du contexte
La capacité la plus originale : Context-1 supprime sélectivement les documents non pertinents de sa fenêtre de contexte en cours de recherche. Cela est mesuré à 0,94 de précision d’élagage, ce qui signifie qu’il identifie et écarte presque toujours correctement les documents qui pollueraient les étapes de raisonnement suivantes.
Cette approche résout un problème fondamental du RAG — la pollution de la fenêtre de contexte au fur et à mesure que les documents s’accumulent entre les étapes — sans nécessiter d’infrastructure externe de re-ranking.
Généralisation inter-domaines
Entraîné sur des tâches web, juridiques et financières, le modèle se généralise à des domaines non vus et des benchmarks publics :
| Benchmark | Type |
|---|---|
| BrowseComp-Plus | Recherche web |
| SealQA | QA structuré |
| FRAMES | Raisonnement multi-hop |
| HLE | Évaluation longue durée |
Performances
| Métrique | Valeur |
|---|---|
| Qualité de récupération | Comparable aux LLM frontier |
| Coût vs frontier | Fraction du coût |
| Vitesse vs frontier | Jusqu’à 10x plus rapide |
| Précision d’élagage du contexte | 0,94 |
| Appels d’outils moyens par tour | 2,56 |
Context-1 se positionne comme une alternative coût/vitesse à l’utilisation de modèles frontier (GPT-4o, Claude, Gemini) pour les tâches de récupération — qualité comparable à une fraction du coût d’inférence, avec l’avantage de vitesse d’un modèle conçu à cet effet.
Important : harness agentique requis
Context-1 est conçu pour fonctionner au sein d’un harness agentique spécifique qui gère :
- L’exécution des outils
- Le suivi du budget de tokens
- L’élagage et la déduplication du contexte
- L’état multi-tour
Le harness n’est pas encore public. Exécuter le modèle en standalone sans le harness ne reproduira pas les résultats de benchmarks reportés dans le rapport technique. Chroma a annoncé que la sortie complète est prévue prochainement.
Cela signifie que Context-1 est actuellement mieux compris comme une prévisualisation de l’architecture et de l’approche d’entraînement — un déploiement pratique nécessite d’attendre la sortie du harness ou de construire un wrapper compatible basé sur le rapport technique.
Quantification et variantes
7 variantes quantifiées sont disponibles sur le Hub pour :
- llama.cpp
- LM Studio
- Jan
- Ollama
Un checkpoint quantifié MXFP4 est prévu.
Limites
- Dépendance au harness — les résultats de benchmarks nécessitent le harness agentique propriétaire, qui n’est pas encore public
- Pas d’usage standalone — le modèle n’est pas conçu pour la génération de texte généraliste ; il est optimisé pour la tâche d’agent de recherche
- Complexité MoE — les modèles Mixture of Experts peuvent être plus difficiles à déployer sur du matériel limité ; vérifier les besoins en VRAM par rapport à votre infrastructure
- Distribution d’entraînement étroite — entraîné spécifiquement sur le web, le juridique et la finance ; les performances sur d’autres domaines peuvent varier
Conclusion
Context-1 est un pari architectural intéressant : plutôt que de s’appuyer sur un modèle frontier pour alimenter le RAG, entraîner un agent de recherche dédié qui sait décomposer, récupérer et s’auto-corriger. Le mécanisme d’auto-édition du contexte est la décision de conception la plus remarquable — c’est un comportement appris qui remplace ce que la plupart des pipelines RAG résolvent avec des re-rankers externes ou une gestion stricte de la fenêtre de contexte.
La principale réserve est la dépendance au harness. En attendant la sortie complète, Context-1 est avant tout un artefact de recherche qui signale la direction que prennent les agents RAG dédiés.
Modèle : chromadb/context-1
Rapport technique : Chroma Context-1: Training a Self-Editing Search Agent
Tags :
- IA
- Chroma
- RAG
- Recherche
- Agents
- Open Source