Nemotron Cascade 2 30B-A3B : médailles d'or IMO et IOI 2025

Qu'est-ce que Nemotron Cascade 2 ?

Nemotron Cascade 2 (30B-A3B) est un modèle open source publié par NVIDIA le 19 mars 2026. Son chiffre clé est trompeur : 30 milliards de paramètres au total, mais seulement 3 milliards activés par passe d'inférence. C'est l'architecture Mixture of Experts (MoE) en action — le modèle route chaque token à travers un sous-ensemble de sa capacité totale, ce qui le rend bien plus efficace qu'un modèle dense de 30B.

Il fonctionne en deux modes : thinking (raisonnement étendu pour les problèmes difficiles) et instruct (réponses rapides et directes). Sur les tâches de raisonnement difficile, le mode thinking livre des résultats difficiles à croire pour un modèle de cette taille.

Architecture et entraînement

Le pipeline d'entraînement combine deux techniques :

Cascade RL — une approche par renforcement qui challenge progressivement le modèle avec des problèmes de plus en plus difficiles à mesure qu'il progresse
Multi-Domain On-Policy Distillation — le modèle génère ses propres données d'entraînement sous supervision RL, sur des domaines variés : mathématiques, code, science, et suivi d'instructions

Le résultat est un modèle qui a réellement internalisé la résolution de problèmes structurée, et non simplement appris à reconnaître des patterns d'entraînement.

Les médailles d'or

C'est la performance principale. Aux Olympiades Internationales de Mathématiques 2025 et aux Olympiades Internationales d'Informatique 2025, Nemotron Cascade 2 a atteint le niveau médaille d'or — en compétition avec les meilleurs étudiants humains du monde.

Ce ne sont pas de simples chiffres de benchmark — l'IMO et l'IOI sont les concours de mathématiques et de programmation les plus difficiles au monde, organisés chaque année avec des milliers de participants. Qu'un modèle open source de 30B atteigne le niveau or est un jalon significatif.

Résultats complets des benchmarks

Mathématiques

Benchmark	Score
IMO 2025	35 pts (or)
AIME 2025	92,4 (98,6 avec TIR)
AIME 2026	90,9 (95,0 avec TIR)
HMMT Février 2025	94,6
IMO AnswerBench	79,3

Code et programmation compétitive

Benchmark	Score
IOI 2025	439,3 pts (or)
ICPC World Finals 2025	10/12
LiveCodeBench v6	87,2 (88,4 avec TIR)
SWE Verified (OpenHands)	50,2

Connaissances et sciences

Benchmark	Score
GPQA-Diamond	76,1
MMLU-Pro	79,8
MMLU-Redux	86,3

Suivi d'instructions et alignement

Benchmark	Score
ArenaHard v2 (moy.)	83,5
ArenaHard prompts difficiles	88,2
IFBench	82,9

Contexte long

Benchmark	Score
NIAH @ 1M tokens	99,0
LongBench v2	40,3

Le score NIAH (Needle In A Haystack) de 99,0 à 1 million de tokens est particulièrement remarquable — le modèle retrouve fiablement une information enfouie dans un contexte d'1M de tokens.

Efficacité : 3B activés sur 30B

L'architecture MoE est la clé qui rend ce modèle praticable. À l'inférence, seuls 3B paramètres s'activent par token, ce qui signifie :

Métrique	Valeur
Paramètres totaux	30B
Activés par token	3B (10 %)
Fenêtre de contexte	262 144 tokens
Type de tenseur	BF16 / F32
Configuration minimale	Un seul GPU haut de gamme

Il peut être servi avec vllm sur un GPU unique avec --tensor-parallel-size 1 — pas de configuration multi-GPU nécessaire pour une utilisation standard.

Fonctionnement dual mode

Le modèle est contrôlé via le template de chat, pas via des poids séparés.

Mode thinking — active la trace de raisonnement <think> avant de répondre :

prompt = tokenizer.apply_chat_template(
    messages, tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True   # → <think>\n...
)

Mode instruct — saute la trace de raisonnement pour des réponses rapides :

prompt = tokenizer.apply_chat_template(
    messages, tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # → <think></think>
)

Paramètres d'échantillonnage recommandés : temperature=1.0, top_p=0.95.

Utilisation agentique et outils

Le modèle prend en charge nativement le Tool-Integrated Reasoning (TIR) — il peut appeler l'exécution de code Python en plein milieu de son raisonnement et incorporer le résultat avant de produire sa réponse finale. C'est ce qui explique les améliorations +TIR dans les scores de benchmarks ci-dessus.

Les appels d'outils utilisent ce format :

<tool_call>
<function=stateful_python_code_exec>
<parameter=code>import sympy; sympy.solve(...)</parameter>
</function>
</tool_call>

Pour le codage agentique, le modèle s'intègre avec OpenHands (50,2 sur SWE Verified). OpenCode n'est pas encore supporté.

Cas d'usage

Idéal pour :

Mathématiques compétitives et preuves formelles
Problèmes de codage difficiles (niveau programmation compétitive)
Analyse de documents longs (jusqu'à 262K tokens)
Workflows de codage agentique via OpenHands
Raisonnement scientifique (GPQA-Diamond : 76,1)

Déconseillé pour :

Récupération de faits en temps réel (pas d'accès web)
Déploiements nécessitant une intégration OpenCode
Environnements sans GPU

Écosystème du modèle

Limites

Pas de support OpenCode — uniquement OpenHands pour les tâches de codage agentique
Compression du contexte en multi-tour thinking — seul le résumé (pas la trace <think> complète) est conservé dans l'historique de conversation
Format de réponse d'outils non standard — les résultats des outils vont sous le rôle user encapsulés dans des balises <tool_response>, et non dans un rôle tool séparé
La licence est NVIDIA Open Model License, pas Apache 2.0 — vérifier les conditions pour un usage commercial

Conclusion

Nemotron Cascade 2 redéfinit ce qui est possible avec un modèle open source efficace. Un MoE à 3B activés qui décroche l'or à l'IMO et à l'IOI est un vrai point d'inflexion — pas un cherry-picking de benchmark, mais une performance sur les compétitions publiques les plus difficiles qui existent en mathématiques et programmation.

Pour les chercheurs, les ingénieurs, et toute personne construisant des applications à raisonnement intense en local, c'est le modèle open source le plus capable dans sa classe de poids au début 2026.

Modèle : nvidia/Nemotron-Cascade-2-30B-A3B — Licence NVIDIA Open Model

Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code