>_Reeboot
Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte
IA

Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Context-1 de Chroma est un modèle de recherche agentique MoE de 20B paramètres conçu pour la récupération multi-hop. Il décompose les requêtes, appelle des outils en parallèle, élague les documents no

Qu'est-ce que Chroma Context-1 ?

Chroma Context-1 est un modèle Mixture of Experts de 20B paramètres conçu spécifiquement pour la recherche agentique — des tâches de récupération nécessitant plusieurs étapes, une décomposition des requêtes et une auto-correction. Il est publié par Chroma (la société derrière la base de données vectorielle open source du même nom) sous licence Apache 2.0.

La fonctionnalité distinctive du modèle est l'auto-édition du contexte : il peut éliminer sélectivement les documents non pertinents de sa propre fenêtre de contexte pendant la recherche multi-étapes, maintenant la qualité sur de longs horizons de recherche sans l'accumulation qui dégrade typiquement les pipelines RAG.


Architecture

  • Modèle de base : GPT-OSS-20B (Mixture of Experts)
  • Entraînement : SFT + RL via CISPO (un objectif d'apprentissage par renforcement), avec apprentissage par curriculum progressif sur des domaines web, juridique et finance
  • Précision : BF16 (checkpoint quantifié MXFP4 à venir)

L'architecture MoE implique que seule une fraction des paramètres est active par passage, ce qui contribue à l'avantage de vitesse du modèle par rapport aux alternatives denses.


Capacités clés

Décomposition de requêtes

Context-1 décompose les questions complexes à contraintes multiples en sous-requêtes ciblées, puis les exécute systématiquement plutôt que de tenter une réponse à partir d'un seul passage de récupération.

Appels d'outils en parallèle

Le modèle effectue en moyenne 2,56 appels d'outils par tour, réduisant le nombre total de tours nécessaires et minimisant la latence de bout en bout. C'est un comportement appris à l'entraînement, pas une astuce de prompt engineering — le modèle a appris à grouper ses étapes de collecte d'informations.

Auto-édition du contexte

La capacité la plus originale : Context-1 supprime sélectivement les documents non pertinents de sa fenêtre de contexte en cours de recherche. Cela est mesuré à 0,94 de précision d'élagage, ce qui signifie qu'il identifie et écarte presque toujours correctement les documents qui pollueraient les étapes de raisonnement suivantes.

Cette approche résout un problème fondamental du RAG — la pollution de la fenêtre de contexte au fur et à mesure que les documents s'accumulent entre les étapes — sans nécessiter d'infrastructure externe de re-ranking.

Généralisation inter-domaines

Entraîné sur des tâches web, juridiques et financières, le modèle se généralise à des domaines non vus et des benchmarks publics :

Benchmark Type
BrowseComp-Plus Recherche web
SealQA QA structuré
FRAMES Raisonnement multi-hop
HLE Évaluation longue durée

Performances

Métrique Valeur
Qualité de récupération Comparable aux LLM frontier
Coût vs frontier Fraction du coût
Vitesse vs frontier Jusqu'à 10x plus rapide
Précision d'élagage du contexte 0,94
Appels d'outils moyens par tour 2,56

Context-1 se positionne comme une alternative coût/vitesse à l'utilisation de modèles frontier (GPT-4o, Claude, Gemini) pour les tâches de récupération — qualité comparable à une fraction du coût d'inférence, avec l'avantage de vitesse d'un modèle conçu à cet effet.


Important : harness agentique requis

Context-1 est conçu pour fonctionner au sein d'un harness agentique spécifique qui gère :

  • L'exécution des outils
  • Le suivi du budget de tokens
  • L'élagage et la déduplication du contexte
  • L'état multi-tour

Le harness n'est pas encore public. Exécuter le modèle en standalone sans le harness ne reproduira pas les résultats de benchmarks reportés dans le rapport technique. Chroma a annoncé que la sortie complète est prévue prochainement.

Cela signifie que Context-1 est actuellement mieux compris comme une prévisualisation de l'architecture et de l'approche d'entraînement — un déploiement pratique nécessite d'attendre la sortie du harness ou de construire un wrapper compatible basé sur le rapport technique.


Quantification et variantes

7 variantes quantifiées sont disponibles sur le Hub pour :

  • llama.cpp
  • LM Studio
  • Jan
  • Ollama

Un checkpoint quantifié MXFP4 est prévu.


Limites

  • Dépendance au harness — les résultats de benchmarks nécessitent le harness agentique propriétaire, qui n'est pas encore public
  • Pas d'usage standalone — le modèle n'est pas conçu pour la génération de texte généraliste ; il est optimisé pour la tâche d'agent de recherche
  • Complexité MoE — les modèles Mixture of Experts peuvent être plus difficiles à déployer sur du matériel limité ; vérifier les besoins en VRAM par rapport à votre infrastructure
  • Distribution d'entraînement étroite — entraîné spécifiquement sur le web, le juridique et la finance ; les performances sur d'autres domaines peuvent varier

Conclusion

Context-1 est un pari architectural intéressant : plutôt que de s'appuyer sur un modèle frontier pour alimenter le RAG, entraîner un agent de recherche dédié qui sait décomposer, récupérer et s'auto-corriger. Le mécanisme d'auto-édition du contexte est la décision de conception la plus remarquable — c'est un comportement appris qui remplace ce que la plupart des pipelines RAG résolvent avec des re-rankers externes ou une gestion stricte de la fenêtre de contexte.

La principale réserve est la dépendance au harness. En attendant la sortie complète, Context-1 est avant tout un artefact de recherche qui signale la direction que prennent les agents RAG dédiés.

Modèle : chromadb/context-1
Rapport technique : Chroma Context-1: Training a Self-Editing Search Agent