Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code
- Bastien
- 24 Mar, 2026
Qu’est-ce que Nemotron Cascade 2 ?
Nemotron Cascade 2 (30B-A3B) est un modèle open source publié par NVIDIA le 19 mars 2026. Son chiffre clé est trompeur : 30 milliards de paramètres au total, mais seulement 3 milliards activés par passe d’inférence. C’est l’architecture Mixture of Experts (MoE) en action — le modèle route chaque token à travers un sous-ensemble de sa capacité totale, ce qui le rend bien plus efficace qu’un modèle dense de 30B.
Il fonctionne en deux modes : thinking (raisonnement étendu pour les problèmes difficiles) et instruct (réponses rapides et directes). Sur les tâches de raisonnement difficile, le mode thinking livre des résultats difficiles à croire pour un modèle de cette taille.
Architecture et entraînement
Le pipeline d’entraînement combine deux techniques :
- Cascade RL — une approche par renforcement qui challenge progressivement le modèle avec des problèmes de plus en plus difficiles à mesure qu’il progresse
- Multi-Domain On-Policy Distillation — le modèle génère ses propres données d’entraînement sous supervision RL, sur des domaines variés : mathématiques, code, science, et suivi d’instructions
Le résultat est un modèle qui a réellement internalisé la résolution de problèmes structurée, et non simplement appris à reconnaître des patterns d’entraînement.
Les médailles d’or
C’est la performance principale. Aux Olympiades Internationales de Mathématiques 2025 et aux Olympiades Internationales d’Informatique 2025, Nemotron Cascade 2 a atteint le niveau médaille d’or — en compétition avec les meilleurs étudiants humains du monde.
Ce ne sont pas de simples chiffres de benchmark — l’IMO et l’IOI sont les concours de mathématiques et de programmation les plus difficiles au monde, organisés chaque année avec des milliers de participants. Qu’un modèle open source de 30B atteigne le niveau or est un jalon significatif.
Résultats complets des benchmarks
Mathématiques
| Benchmark | Score |
|---|---|
| IMO 2025 | 35 pts (or) |
| AIME 2025 | 92,4 (98,6 avec TIR) |
| AIME 2026 | 90,9 (95,0 avec TIR) |
| HMMT Février 2025 | 94,6 |
| IMO AnswerBench | 79,3 |
Code et programmation compétitive
| Benchmark | Score |
|---|---|
| IOI 2025 | 439,3 pts (or) |
| ICPC World Finals 2025 | 10/12 |
| LiveCodeBench v6 | 87,2 (88,4 avec TIR) |
| SWE Verified (OpenHands) | 50,2 |
Connaissances et sciences
| Benchmark | Score |
|---|---|
| GPQA-Diamond | 76,1 |
| MMLU-Pro | 79,8 |
| MMLU-Redux | 86,3 |
Suivi d’instructions et alignement
| Benchmark | Score |
|---|---|
| ArenaHard v2 (moy.) | 83,5 |
| ArenaHard prompts difficiles | 88,2 |
| IFBench | 82,9 |
Contexte long
| Benchmark | Score |
|---|---|
| NIAH @ 1M tokens | 99,0 |
| LongBench v2 | 40,3 |
Le score NIAH (Needle In A Haystack) de 99,0 à 1 million de tokens est particulièrement remarquable — le modèle retrouve fiablement une information enfouie dans un contexte d’1M de tokens.
Efficacité : 3B activés sur 30B
L’architecture MoE est la clé qui rend ce modèle praticable. À l’inférence, seuls 3B paramètres s’activent par token, ce qui signifie :
| Métrique | Valeur |
|---|---|
| Paramètres totaux | 30B |
| Activés par token | 3B (10 %) |
| Fenêtre de contexte | 262 144 tokens |
| Type de tenseur | BF16 / F32 |
| Configuration minimale | Un seul GPU haut de gamme |
Il peut être servi avec vllm sur un GPU unique avec --tensor-parallel-size 1 — pas de configuration multi-GPU nécessaire pour une utilisation standard.
Fonctionnement dual mode
Le modèle est contrôlé via le template de chat, pas via des poids séparés.
Mode thinking — active la trace de raisonnement <think> avant de répondre :
prompt = tokenizer.apply_chat_template(
messages, tokenize=False,
add_generation_prompt=True,
enable_thinking=True # → <think>\n...
)
Mode instruct — saute la trace de raisonnement pour des réponses rapides :
prompt = tokenizer.apply_chat_template(
messages, tokenize=False,
add_generation_prompt=True,
enable_thinking=False # → <think></think>
)
Paramètres d’échantillonnage recommandés : temperature=1.0, top_p=0.95.
Utilisation agentique et outils
Le modèle prend en charge nativement le Tool-Integrated Reasoning (TIR) — il peut appeler l’exécution de code Python en plein milieu de son raisonnement et incorporer le résultat avant de produire sa réponse finale. C’est ce qui explique les améliorations +TIR dans les scores de benchmarks ci-dessus.
Les appels d’outils utilisent ce format :
<tool_call>
<function=stateful_python_code_exec>
<parameter=code>import sympy; sympy.solve(...)</parameter>
</function>
</tool_call>
Pour le codage agentique, le modèle s’intègre avec OpenHands (50,2 sur SWE Verified). OpenCode n’est pas encore supporté.
Cas d’usage
Idéal pour :
- Mathématiques compétitives et preuves formelles
- Problèmes de codage difficiles (niveau programmation compétitive)
- Analyse de documents longs (jusqu’à 262K tokens)
- Workflows de codage agentique via OpenHands
- Raisonnement scientifique (GPQA-Diamond : 76,1)
Déconseillé pour :
- Récupération de faits en temps réel (pas d’accès web)
- Déploiements nécessitant une intégration OpenCode
- Environnements sans GPU
Écosystème du modèle
Limites
- Pas de support OpenCode — uniquement OpenHands pour les tâches de codage agentique
- Compression du contexte en multi-tour thinking — seul le résumé (pas la trace
<think>complète) est conservé dans l’historique de conversation - Format de réponse d’outils non standard — les résultats des outils vont sous le rôle
userencapsulés dans des balises<tool_response>, et non dans un rôletoolséparé - La licence est NVIDIA Open Model License, pas Apache 2.0 — vérifier les conditions pour un usage commercial
Conclusion
Nemotron Cascade 2 redéfinit ce qui est possible avec un modèle open source efficace. Un MoE à 3B activés qui décroche l’or à l’IMO et à l’IOI est un vrai point d’inflexion — pas un cherry-picking de benchmark, mais une performance sur les compétitions publiques les plus difficiles qui existent en mathématiques et programmation.
Pour les chercheurs, les ingénieurs, et toute personne construisant des applications à raisonnement intense en local, c’est le modèle open source le plus capable dans sa classe de poids au début 2026.
Modèle : nvidia/Nemotron-Cascade-2-30B-A3B — Licence NVIDIA Open Model
Tags :
- IA
- NVIDIA
- Raisonnement
- MoE
- Open Source
- Mathématiques