Chroma Context-1 : MoE 20B pour RAG agentique, auto-édition du contexte, 10x plus rapide

Qu'est-ce que Chroma Context-1 ?

Chroma Context-1 est un modèle Mixture of Experts de 20B paramètres conçu spécifiquement pour la recherche agentique — des tâches de récupération nécessitant plusieurs étapes, une décomposition des requêtes et une auto-correction. Il est publié par Chroma (la société derrière la base de données vectorielle open source du même nom) sous licence Apache 2.0.

La fonctionnalité distinctive du modèle est l'auto-édition du contexte : il peut éliminer sélectivement les documents non pertinents de sa propre fenêtre de contexte pendant la recherche multi-étapes, maintenant la qualité sur de longs horizons de recherche sans l'accumulation qui dégrade typiquement les pipelines RAG.

Architecture

Modèle de base : GPT-OSS-20B (Mixture of Experts)
Entraînement : SFT + RL via CISPO (un objectif d'apprentissage par renforcement), avec apprentissage par curriculum progressif sur des domaines web, juridique et finance
Précision : BF16 (checkpoint quantifié MXFP4 à venir)

L'architecture MoE implique que seule une fraction des paramètres est active par passage, ce qui contribue à l'avantage de vitesse du modèle par rapport aux alternatives denses.

Capacités clés

Décomposition de requêtes

Context-1 décompose les questions complexes à contraintes multiples en sous-requêtes ciblées, puis les exécute systématiquement plutôt que de tenter une réponse à partir d'un seul passage de récupération.

Appels d'outils en parallèle

Le modèle effectue en moyenne 2,56 appels d'outils par tour, réduisant le nombre total de tours nécessaires et minimisant la latence de bout en bout. C'est un comportement appris à l'entraînement, pas une astuce de prompt engineering — le modèle a appris à grouper ses étapes de collecte d'informations.

Auto-édition du contexte

La capacité la plus originale : Context-1 supprime sélectivement les documents non pertinents de sa fenêtre de contexte en cours de recherche. Cela est mesuré à 0,94 de précision d'élagage, ce qui signifie qu'il identifie et écarte presque toujours correctement les documents qui pollueraient les étapes de raisonnement suivantes.

Cette approche résout un problème fondamental du RAG — la pollution de la fenêtre de contexte au fur et à mesure que les documents s'accumulent entre les étapes — sans nécessiter d'infrastructure externe de re-ranking.

Généralisation inter-domaines

Entraîné sur des tâches web, juridiques et financières, le modèle se généralise à des domaines non vus et des benchmarks publics :

Benchmark	Type
BrowseComp-Plus	Recherche web
SealQA	QA structuré
FRAMES	Raisonnement multi-hop
HLE	Évaluation longue durée

Performances

Métrique	Valeur
Qualité de récupération	Comparable aux LLM frontier
Coût vs frontier	Fraction du coût
Vitesse vs frontier	Jusqu'à 10x plus rapide
Précision d'élagage du contexte	0,94
Appels d'outils moyens par tour	2,56

Context-1 se positionne comme une alternative coût/vitesse à l'utilisation de modèles frontier (GPT-4o, Claude, Gemini) pour les tâches de récupération — qualité comparable à une fraction du coût d'inférence, avec l'avantage de vitesse d'un modèle conçu à cet effet.

Important : harness agentique requis

Context-1 est conçu pour fonctionner au sein d'un harness agentique spécifique qui gère :

L'exécution des outils
Le suivi du budget de tokens
L'élagage et la déduplication du contexte
L'état multi-tour

Le harness n'est pas encore public. Exécuter le modèle en standalone sans le harness ne reproduira pas les résultats de benchmarks reportés dans le rapport technique. Chroma a annoncé que la sortie complète est prévue prochainement.

Cela signifie que Context-1 est actuellement mieux compris comme une prévisualisation de l'architecture et de l'approche d'entraînement — un déploiement pratique nécessite d'attendre la sortie du harness ou de construire un wrapper compatible basé sur le rapport technique.

Quantification et variantes

7 variantes quantifiées sont disponibles sur le Hub pour :

llama.cpp
LM Studio
Jan
Ollama

Un checkpoint quantifié MXFP4 est prévu.

Limites

Dépendance au harness — les résultats de benchmarks nécessitent le harness agentique propriétaire, qui n'est pas encore public
Pas d'usage standalone — le modèle n'est pas conçu pour la génération de texte généraliste ; il est optimisé pour la tâche d'agent de recherche
Complexité MoE — les modèles Mixture of Experts peuvent être plus difficiles à déployer sur du matériel limité ; vérifier les besoins en VRAM par rapport à votre infrastructure
Distribution d'entraînement étroite — entraîné spécifiquement sur le web, le juridique et la finance ; les performances sur d'autres domaines peuvent varier

Conclusion

Context-1 est un pari architectural intéressant : plutôt que de s'appuyer sur un modèle frontier pour alimenter le RAG, entraîner un agent de recherche dédié qui sait décomposer, récupérer et s'auto-corriger. Le mécanisme d'auto-édition du contexte est la décision de conception la plus remarquable — c'est un comportement appris qui remplace ce que la plupart des pipelines RAG résolvent avec des re-rankers externes ou une gestion stricte de la fenêtre de contexte.

La principale réserve est la dépendance au harness. En attendant la sortie complète, Context-1 est avant tout un artefact de recherche qui signale la direction que prennent les agents RAG dédiés.

Modèle : chromadb/context-1
Rapport technique : Chroma Context-1: Training a Self-Editing Search Agent

Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte