>_Reeboot
Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code
IA

Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Nemotron Cascade 2 est un modèle MoE de 30B paramètres avec seulement 3B activés — et il vient de décrocher des médailles d'or aux Olympiades Internationales de Mathématiques et d'Informatique 2025. V

Qu'est-ce que Nemotron Cascade 2 ?

Nemotron Cascade 2 (30B-A3B) est un modèle open source publié par NVIDIA le 19 mars 2026. Son chiffre clé est trompeur : 30 milliards de paramètres au total, mais seulement 3 milliards activés par passe d'inférence. C'est l'architecture Mixture of Experts (MoE) en action — le modèle route chaque token à travers un sous-ensemble de sa capacité totale, ce qui le rend bien plus efficace qu'un modèle dense de 30B.

Il fonctionne en deux modes : thinking (raisonnement étendu pour les problèmes difficiles) et instruct (réponses rapides et directes). Sur les tâches de raisonnement difficile, le mode thinking livre des résultats difficiles à croire pour un modèle de cette taille.


Architecture et entraînement

Le pipeline d'entraînement combine deux techniques :

  • Cascade RL — une approche par renforcement qui challenge progressivement le modèle avec des problèmes de plus en plus difficiles à mesure qu'il progresse
  • Multi-Domain On-Policy Distillation — le modèle génère ses propres données d'entraînement sous supervision RL, sur des domaines variés : mathématiques, code, science, et suivi d'instructions

Le résultat est un modèle qui a réellement internalisé la résolution de problèmes structurée, et non simplement appris à reconnaître des patterns d'entraînement.


Les médailles d'or

C'est la performance principale. Aux Olympiades Internationales de Mathématiques 2025 et aux Olympiades Internationales d'Informatique 2025, Nemotron Cascade 2 a atteint le niveau médaille d'or — en compétition avec les meilleurs étudiants humains du monde.

Ce ne sont pas de simples chiffres de benchmark — l'IMO et l'IOI sont les concours de mathématiques et de programmation les plus difficiles au monde, organisés chaque année avec des milliers de participants. Qu'un modèle open source de 30B atteigne le niveau or est un jalon significatif.


Résultats complets des benchmarks

Mathématiques

Benchmark Score
IMO 2025 35 pts (or)
AIME 2025 92,4 (98,6 avec TIR)
AIME 2026 90,9 (95,0 avec TIR)
HMMT Février 2025 94,6
IMO AnswerBench 79,3

Code et programmation compétitive

Benchmark Score
IOI 2025 439,3 pts (or)
ICPC World Finals 2025 10/12
LiveCodeBench v6 87,2 (88,4 avec TIR)
SWE Verified (OpenHands) 50,2

Connaissances et sciences

Benchmark Score
GPQA-Diamond 76,1
MMLU-Pro 79,8
MMLU-Redux 86,3

Suivi d'instructions et alignement

Benchmark Score
ArenaHard v2 (moy.) 83,5
ArenaHard prompts difficiles 88,2
IFBench 82,9

Contexte long

Benchmark Score
NIAH @ 1M tokens 99,0
LongBench v2 40,3

Le score NIAH (Needle In A Haystack) de 99,0 à 1 million de tokens est particulièrement remarquable — le modèle retrouve fiablement une information enfouie dans un contexte d'1M de tokens.


Efficacité : 3B activés sur 30B

L'architecture MoE est la clé qui rend ce modèle praticable. À l'inférence, seuls 3B paramètres s'activent par token, ce qui signifie :

Métrique Valeur
Paramètres totaux 30B
Activés par token 3B (10 %)
Fenêtre de contexte 262 144 tokens
Type de tenseur BF16 / F32
Configuration minimale Un seul GPU haut de gamme

Il peut être servi avec vllm sur un GPU unique avec --tensor-parallel-size 1 — pas de configuration multi-GPU nécessaire pour une utilisation standard.


Fonctionnement dual mode

Le modèle est contrôlé via le template de chat, pas via des poids séparés.

Mode thinking — active la trace de raisonnement <think> avant de répondre :

prompt = tokenizer.apply_chat_template(
    messages, tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True   # → <think>\n...
)

Mode instruct — saute la trace de raisonnement pour des réponses rapides :

prompt = tokenizer.apply_chat_template(
    messages, tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # → <think></think>
)

Paramètres d'échantillonnage recommandés : temperature=1.0, top_p=0.95.


Utilisation agentique et outils

Le modèle prend en charge nativement le Tool-Integrated Reasoning (TIR) — il peut appeler l'exécution de code Python en plein milieu de son raisonnement et incorporer le résultat avant de produire sa réponse finale. C'est ce qui explique les améliorations +TIR dans les scores de benchmarks ci-dessus.

Les appels d'outils utilisent ce format :

<tool_call>
<function=stateful_python_code_exec>
<parameter=code>import sympy; sympy.solve(...)</parameter>
</function>
</tool_call>

Pour le codage agentique, le modèle s'intègre avec OpenHands (50,2 sur SWE Verified). OpenCode n'est pas encore supporté.


Cas d'usage

Idéal pour :

  • Mathématiques compétitives et preuves formelles
  • Problèmes de codage difficiles (niveau programmation compétitive)
  • Analyse de documents longs (jusqu'à 262K tokens)
  • Workflows de codage agentique via OpenHands
  • Raisonnement scientifique (GPQA-Diamond : 76,1)

Déconseillé pour :

  • Récupération de faits en temps réel (pas d'accès web)
  • Déploiements nécessitant une intégration OpenCode
  • Environnements sans GPU

Écosystème du modèle


Limites

  • Pas de support OpenCode — uniquement OpenHands pour les tâches de codage agentique
  • Compression du contexte en multi-tour thinking — seul le résumé (pas la trace <think> complète) est conservé dans l'historique de conversation
  • Format de réponse d'outils non standard — les résultats des outils vont sous le rôle user encapsulés dans des balises <tool_response>, et non dans un rôle tool séparé
  • La licence est NVIDIA Open Model License, pas Apache 2.0 — vérifier les conditions pour un usage commercial

Conclusion

Nemotron Cascade 2 redéfinit ce qui est possible avec un modèle open source efficace. Un MoE à 3B activés qui décroche l'or à l'IMO et à l'IOI est un vrai point d'inflexion — pas un cherry-picking de benchmark, mais une performance sur les compétitions publiques les plus difficiles qui existent en mathématiques et programmation.

Pour les chercheurs, les ingénieurs, et toute personne construisant des applications à raisonnement intense en local, c'est le modèle open source le plus capable dans sa classe de poids au début 2026.

Modèle : nvidia/Nemotron-Cascade-2-30B-A3B — Licence NVIDIA Open Model