Type something to search...
NVIDIA Nemotron-3 Super : un modèle 120B MoE qui tourne sur un seul GPU

NVIDIA Nemotron-3 Super : un modèle 120B MoE qui tourne sur un seul GPU

Le 11 mars 2026, NVIDIA a publié Nemotron-3 Super — un modèle qui occupe une position inhabituellement précise : 120 milliards de paramètres au total, seulement 12 milliards actifs lors de l’inférence, déployable sur un seul GPU, et capable de traiter un contexte d’un million de tokens. C’est le premier modèle de la famille Nemotron 3 entraîné en précision NVFP4, et il introduit une architecture hybride combinant des couches d’état Mamba-2, un routage Mixture of Experts et des couches d’attention standard dans un seul système. Voici ce que cette sortie apporte concrètement.


L’architecture : pourquoi LatentMoE est différent

L’architecture du modèle est décrite comme LatentMoE — une variante du Mixture of Experts où les représentations des tokens sont d’abord projetées dans une dimension latente plus petite avant d’être routées vers les experts. Ce n’est pas une variation cosmétique. Le routage dans l’espace latent plutôt que dans l’espace d’embedding complet réduit le coût computationnel de la décision de routage elle-même, et stabilise le flux de gradient pendant l’entraînement en séparant le signal de routage de l’espace représentationnel complet.

Au-delà du design de routage, Nemotron-3 Super est un modèle hybride : il combine des couches d’état Mamba-2, des couches feedforward MoE et des couches d’attention standard dans la même architecture.

  • Les couches Mamba-2 traitent les longues séquences efficacement avec une complexité linéaire, évitant le coût quadratique de l’attention sur de très longues séquences.
  • Les couches feedforward MoE concentrent la capacité dans un petit nombre d’experts actifs (12 milliards sur 120 milliards au total), maintenant l’inférence peu coûteuse.
  • Les couches d’attention standard gèrent le raisonnement positionnel précis et les dépendances à courte portée où l’attention reste le mécanisme le plus fiable.

La combinaison est conçue pour atteindre 1 million de tokens de contexte effectif sans l’explosion computationnelle que l’attention pure exigerait. À 128 000 tokens, le modèle score 95,99 sur RULER ; à 512 000 tokens, il maintient encore 96,23 — des chiffres qui reflètent une capacité architecturale réelle, pas une performance construite pour un communiqué de presse.


NVFP4 : s’entraîner en précision 4 bits

La quantification NVFP4 est l’autre grand sujet architectural. La majorité des couches linéaires — poids, activations et gradients — sont entraînées en précision NVFP4. Les couches particulièrement sensibles à la précision numérique (projections latentes, couches de prédiction multi-token, projections d’attention, embeddings) restent en BF16 ou MXFP8.

C’est une stratégie de précision hybride soigneusement conçue. Un entraînement 4 bits complet introduit généralement de l’instabilité ; l’approche ici consiste à identifier quelles opérations sont sensibles à la précision et à maintenir une précision plus élevée uniquement là, tout en maximisant l’utilisation de NVFP4 ailleurs. Le résultat est un modèle qui tient dans beaucoup moins de mémoire qu’un équivalent BF16 à 120 milliards de paramètres — et qui fonctionne sur un seul GPU B200 ou un seul DGX Spark.

Pour mettre cela en perspective : faire tourner Mistral Small 4 (également un modèle MoE avec des paramètres actifs comparables) nécessite au minimum deux GPU H200. Nemotron-3 Super avec sa quantification NVFP4 atteint le déploiement sur un seul GPU pour des charges de travail qui nécessitaient auparavant un cluster multi-GPU.


La prédiction multi-token : une inférence plus rapide par l’architecture

Nemotron-3 Super inclut des couches de prédiction multi-token (MTP) avec un design à poids partagés. Le MTP est un choix architectural qui prédit plusieurs tokens futurs par passe avant plutôt qu’un seul à la fois, en utilisant des poids partagés entre les têtes de prédiction.

Les effets pratiques sont doubles. Pendant l’entraînement, prédire plusieurs tokens simultanément fournit un signal de gradient plus riche. Pendant l’inférence, le MTP permet le décodage spéculatif natif, qui pré-génère des continuations candidates pouvant être validées en parallèle plutôt que séquentiellement — ce qui produit une inférence mesurément plus rapide sans changer la distribution des sorties.

Le design à poids partagés maintient le surcoût en paramètres du MTP négligeable, préservant le budget de 12 milliards de paramètres actifs pendant l’inférence.


Le raisonnement configurable : activé, désactivé ou budgété

L’une des fonctionnalités les plus utiles en production de Nemotron-3 Super est la possibilité de contrôler la profondeur du raisonnement à l’inférence via un paramètre de template de chat (enable_thinking).

Mode raisonnement complet (par défaut) : le modèle génère une chaîne de pensée explicite avant de produire sa réponse finale. C’est le réglage approprié pour les tâches mathématiques, scientifiques ou logiques complexes où l’analyse structurée réduit le risque d’hallucination.

Mode sans raisonnement : le modèle court-circuite la trace de raisonnement et répond directement. C’est le bon choix pour les requêtes simples, les interactions conversationnelles, ou tout contexte où la latence de réponse prime sur la profondeur.

Raisonnement à faible effort : un compromis où le raisonnement est activé mais contraint. Le modèle génère une trace de raisonnement plus courte, ce qui réduit la consommation de tokens et la latence tout en conservant un bénéfice analytique pour les requêtes modérément complexes.

Raisonnement à budget contrôlé : un mécanisme de contrôle plus chirurgical qui fixe un plafond dur de tokens sur la trace de raisonnement. Le modèle génère le raisonnement jusqu’au budget, puis ferme la trace proprement et produit la réponse finale. C’est utile quand on dispose d’un budget de latence en millisecondes et qu’on veut extraire la qualité de raisonnement maximale dans ce budget.

Cette configurabilité est significative pour les déploiements en production. Une seule instance de Nemotron-3 Super peut gérer à la fois des requêtes FAQ simples et des analyses documentaires complexes, ajustant dynamiquement la dépense computationnelle par requête plutôt que de nécessiter des déploiements de modèles séparés pour différents types de tâches.


Les benchmarks : où il performe et où il ne le fait pas

NVIDIA publie les résultats des benchmarks avec une transparence sur la méthodologie, incluant des liens vers les outils d’évaluation open source et la documentation de reproductibilité.

Sur la connaissance générale, le modèle score 83,33 sur MMLU-Pro, le positionnant de manière compétitive par rapport aux modèles frontier dans cette catégorie.

Sur les tâches de raisonnement, les résultats sont plus variés. GPQA (questions scientifiques de niveau doctoral, sans outils) atteint 79,42. LiveCodeBench v5 score 80,56. HMMT Feb25 (un benchmark de maths de compétition difficile, avec outils activés) atteint 95,36. SciCode (benchmark de code scientifique, évaluation sur sous-tâche) score 40,83 — un chiffre qui signale que le codage scientifique reste difficile pour tous les modèles actuels.

Sur les tâches à long contexte, les scores RULER sont remarquablement stables entre les longueurs de contexte (95,99 à 128K, 96,23 à 512K), ce qui suggère que l’architecture hybride gère réellement les longues séquences plutôt que de dégrader.

Sur les tâches agentiques (Terminal Bench, sous-ensemble difficile), le score de 24,48 reflète un vrai défi de frontier : l’opération autonome de terminal est difficile pour tous les modèles actuels. Pour les workflows agentiques d’entreprise (TauBench V2), la moyenne de 60,46 sur les domaines aérien, retail et télécom positionne le modèle comme un outil pratique pour l’automatisation de tâches structurées.

Le score HLE de 17,42 (Humanity’s Last Exam, sans outils) mérite mention : HLE est explicitement conçu pour sonder les limites des systèmes d’IA actuels avec des problèmes au niveau ou au-delà de l’expertise humaine. Un score de 17 est faible, mais dans la même plage que les autres modèles de pointe sur ce benchmark.


L’entraînement à l’échelle : 25 billions de tokens et trois étapes

Le processus d’entraînement suit trois étapes explicites.

Étape 1 — pré-entraînement : le modèle de base a été entraîné sur plus de 25 billions de tokens, issus de crawls web (Common Crawl anglais et multilingue), de dépôts de code (crawl GitHub : 747,4 milliards de tokens), de littérature scientifique (arXiv, PubMed, BioRxiv) et d’un volume substantiel de données synthétiques générées par des modèles incluant Qwen3-235B, DeepSeek-R1 et DeepSeek-V3. Le corpus d’entraînement total couvre 153 jeux de données collectés de 2013 à février 2026.

Étape 2 — fine-tuning supervisé : le focus se déplace vers le code, les mathématiques, la science, les appels d’outils, le suivi d’instructions et la génération de sorties structurées. Des jeux de données spéciaux ont été créés pour les tâches de récupération à longue portée et d’agrégation multi-documents.

Étape 3 — apprentissage par renforcement : NVIDIA a utilisé un GRPO asynchrone (Group Relative Policy Optimization) avec un entraînement et une inférence entièrement découplés sur des clusters GPU séparés. Des mises à jour de poids en vol et l’accélération MTP ont été appliquées pendant l’entraînement RL. Un passage RLHF ultérieur a affiné la qualité conversationnelle. L’infrastructure d’entraînement (NeMo RL et NeMo Gym) est open source, ce qui est pertinent pour les équipes souhaitant adapter la recette d’entraînement.


Les prérequis matériels : un seul GPU, mais sous conditions

L’affirmation principale est le déploiement sur un seul GPU B200 ou DGX Spark. Cela est exact pour le modèle NVFP4, qui tient dans moins de mémoire qu’un équivalent BF16. Pour les équipes fonctionnant sur du matériel H100-80GB, le modèle est supporté mais peut nécessiter un déploiement multi-GPU selon la configuration de longueur de contexte.

Pour le contexte d’un million de tokens spécifiquement, une marge de mémoire supplémentaire est requise. Le format NVFP4 le permet sur un seul B200, mais la configuration nécessite des flags explicites (VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 ou SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1).

Pour la plupart des déploiements d’entreprise qui ne nécessitent pas 1M de contexte, les configurations standard H100-80GB sont suffisantes. Pour les développeurs indépendants ou les petites équipes sans infrastructure GPU dédiée, NVIDIA Build offre un accès gratuit pour le prototypage.


Couverture multilingue et langages de programmation

Le modèle supporte sept langues naturelles en entrée et en sortie : anglais, français, allemand, italien, japonais, espagnol et chinois. La distribution des données post-entraînement est fortement biaisée vers l’anglais (13,48 millions d’exemples contre 53 000 pour chaque autre langue), ce qui produit typiquement une meilleure qualité de sortie en anglais — bien que les performances compétitives en français, allemand et espagnol soient un objectif de design déclaré, compte tenu des paires de traduction incluses dans le post-entraînement (43 200 paires par combinaison de langues).

Pour les langages de programmation, 43 langages sont couverts. Le corpus d’entraînement inclut 1,09 billion de tokens de code GitHub curé plus 427,9 milliards de tokens de code issu de Common Crawl — une base substantielle pour une large gamme de cas d’usage en ingénierie logicielle.


La licence : le modèle ouvert NVIDIA

Nemotron-3 Super est publié sous la NVIDIA Nemotron Open Model License, qui permet l’utilisation commerciale. C’est une position plus permissive qu’un modèle purement propriétaire, mais elle diffère significativement de l’Apache 2.0 (la licence utilisée par Mistral Small 4). La licence NVIDIA inclut des termes qui restreignent certains usages et requiert une attribution ; un examen détaillé est conseillé avant de construire des produits générateurs de revenus sur le modèle.

La version conteneur NIM (pour le déploiement en production via l’infrastructure d’inférence NVIDIA) est régie par des conditions séparées du NVIDIA Software License Agreement. Les équipes qui ont besoin de la situation juridique la plus simple devraient examiner les deux variantes de licence avant de s’engager dans un chemin de déploiement.


Le déploiement : vLLM et SGLang, avec des parseurs de raisonnement personnalisés

Le modèle est déployable via vLLM et SGLang, les deux frameworks de service open source dominants. Les deux nécessitent des parseurs de raisonnement personnalisés (super_v3_reasoning_parser.py pour vLLM, nano_v3 pour SGLang) pour gérer le format de trace de raisonnement structuré du modèle.

Les paramètres d’inférence recommandés sont temperature=1.0, top_p=0.95 pour tous les types de tâches — ce qui est assez inhabituel (la plupart des modèles recommandent des températures plus basses pour les tâches déterministes), et reflète la calibration du modèle vers une inférence basée sur l’échantillonnage même pour des domaines précis comme le code et les mathématiques.

Le déploiement via conteneur NIM offre une inférence optimisée pour le matériel aux équipes opérant déjà dans l’infrastructure de production NVIDIA.


Ce que cela signifie pour l’écosystème des modèles ouverts

Nemotron-3 Super arrive à un moment où la distinction entre “ouvert” et “propriétaire” est de plus en plus définie par le coût d’inférence et l’accessibilité matérielle plutôt que par le seul nombre de paramètres. Un modèle de 120 milliards de paramètres fonctionnant sur un seul GPU B200, maintenant des performances benchmarks compétitives, supportant un contexte d’1M de tokens et autorisant l’usage commercial est une expansion significative de ce qui est accessible aux organisations de taille moyenne.

La méthodologie d’entraînement NVFP4 est susceptible d’influencer les futures sorties de modèles — elle démontre que l’entraînement en précision 4 bits est viable à grande échelle lorsqu’il est combiné avec des couches sélectives à plus haute précision.

Des questions ouvertes demeurent : les performances en conditions réelles sur des données d’entreprise hétérogènes divergent souvent des conditions de benchmark, et la complexité de configurer correctement le parseur de raisonnement et les flags de déploiement est non négligeable. La qualité post-entraînement du modèle dans des langues non anglophones au-delà du français et de l’espagnol nécessitera une validation empirique en pratique.

Pour les équipes évaluant leur infrastructure IA en 2026, Nemotron-3 Super ajoute un point de données crédible à l’argument que la capacité adjacente au frontier ne nécessite plus un investissement matériel de niveau frontier.


Source officielle : NVIDIA Nemotron-3 Super sur Hugging Face

Tags :
  • NVIDIA
  • LLM
  • IA
  • Nemotron
  • Mixture of Experts
  • Raisonnement
  • On device ai
Share :

Related Posts

DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace

DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace

Introduction DeepSeek-V4-Pro est la version préliminaire de la série DeepSeek‑V4, mise à disposition en 2026. Ce modèle propose au total 1,6 trillion de paramètres (49 billion d'experts activés)

Lire la suite
ChatGPT : Attention à ces extensions Chrome malveillantes

ChatGPT : Attention à ces extensions Chrome malveillantes

Vos secrets sur ChatGPT sont-ils en sécurité ? L'engouement autour de ChatGPT a vu naître des milliers d'extensions Chrome promettant d'améliorer l'expérience utilisateur. Cependant, une étude r

Lire la suite
Smartphones à IA Agentique : La Révolution Mobile en Entreprise

Smartphones à IA Agentique : La Révolution Mobile en Entreprise

La percée de l'IA "faiseuse" Le lancement récent du prototype ZTE Nubia M153, propulsé par le modèle Doubao de ByteDance, marque un tournant décisif. Nous passons des assistants vocaux passifs à

Lire la suite
Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot

Kimi K2.6 : 1T de paramètres, modèle multimodal et agentic de Moonshot

De K2 à K2.6 : le modèle agentic multimodal de Moonshot Le Kimi K2.6 de Moonshot AI représente une avancée majeure en combinant trois capacités exigeantes au sein d'un seul modèle open-weigh

Lire la suite
MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT

MiMo-V2.5-Pro : 1,02T de paramètres, modèle agentic sous licence MIT

De V2-Pro à V2.5-Pro : la percée du contexte long La famille MiMo de XiaoMi s'est rapidement imposée parmi les modèles open-weight les plus performants. MiMo-V2.5-Pro est la dernière itérati

Lire la suite
Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Chroma Context-1 : le modèle de recherche agentique 20B qui édite son propre contexte

Qu'est-ce que Chroma Context-1 ? Chroma Context-1 est un modèle Mixture of Experts de 20B paramètres conçu spécifiquement pour la recherche agentique — des tâches de récupération nécessitant

Lire la suite
Claude Opus 4.5 : La Prochaine Génération de l'IA

Claude Opus 4.5 : La Prochaine Génération de l'IA

Introduction à Claude Opus 4.5 Claude Opus 4.5, sorti le 25 novembre 2025, représente une avancée significative dans le domaine de l'IA. Cette dernière version apporte un ensemble de nouvelles f

Lire la suite
Claude Opus 4.7 : le modèle phare d'Anthropic gagne en rigueur

Claude Opus 4.7 : le modèle phare d'Anthropic gagne en rigueur

Qu'est-ce que Claude Opus 4.7 Le 16 avril 2026, Anthropic publie Claude Opus 4.7 — une mise à jour ciblée de son modèle phare centrée sur un seul thème : la rigueur dans les tâches d'ingénie

Lire la suite
Cohere Transcribe : un modèle ASR de 2B qui domine le classement anglais

Cohere Transcribe : un modèle ASR de 2B qui domine le classement anglais

Qu'est-ce que Cohere Transcribe ? Cohere Transcribe 03-2026 est un modèle de reconnaissance automatique de la parole (ASR) publié par Cohere Labs. Avec 2 milliards de paramètres, il se class

Lire la suite
Gemma 4 31B : le modèle multimodal de Google avec 256K de contexte et mode thinking

Gemma 4 31B : le modèle multimodal de Google avec 256K de contexte et mode thinking

Qu'est-ce que Gemma 4 31B ? Gemma 4 31B (variante instruction-tuned : gemma-4-31B-it) est le dernier modèle multimodal open weights de Google, avec 30,7 milliards de paramètres. Il traite

Lire la suite
GLM-5.1 : 754B paramètres — le modèle phare de Z.ai pour l'ingénierie agentique

GLM-5.1 : 754B paramètres — le modèle phare de Z.ai pour l'ingénierie agentique

De GLM-5 à GLM-5.1 : le saut agentique Moins de deux semaines après la sortie de GLM-5, Z.ai (anciennement ZhipuAI) publie GLM-5.1 — un modèle Mixture of Experts de 754 milliards de paramètr

Lire la suite
GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI

GLM-5 : 744 milliards de paramètres, 40B actifs — le modèle frontier open source de ZhipuAI

Qu'est-ce que GLM-5 ? GLM-5 est un grand modèle de langage publié par ZhipuAI (智谱AI). Il possède 744 milliards de paramètres au total, dont seulement 40 milliards actifs à l'inférenc

Lire la suite
Google Snapseed : une nouvelle expérience photo arrive sur iPhone

Google Snapseed : une nouvelle expérience photo arrive sur iPhone

Introduction : Google surprend les photographes mobiles Google vient de frapper un grand coup dans l'écosystème iOS en lançant une application caméra dédiée, directement liée à sa célèbre suite d

Lire la suite
LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur

LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur

Qu'est-ce que LFM2.5-VL-450M La plupart des modèles vision-langage rivalisent sur l'échelle — des milliards de paramètres, des centaines d'heures GPU pour l'inférence. Liquid AI prend l'approche

Lire la suite
MiniMax-M2.7 : un modèle de 229B paramètres qui s'améliore lui-même

MiniMax-M2.7 : un modèle de 229B paramètres qui s'améliore lui-même

Qu'est-ce que MiniMax-M2.7 MiniMax-M2.7 est un modèle dense de 229 milliards de paramètres développé par MiniMax, un laboratoire d'IA basé à Pékin. Contrairement à la plupart des modèles fro

Lire la suite
Mistral Small 4 : Un Modèle d'IA Unifié qui Redéfinit l'Efficacité

Mistral Small 4 : Un Modèle d'IA Unifié qui Redéfinit l'Efficacité

Depuis quelques années, la course aux modèles de langage a souvent opposé deux extrêmes : les grands modèles puissants mais coûteux, et les petits modèles rapides mais limités. Mistral AI vient de br

Lire la suite
Mistral Devstral 2 : Le retour de l'IA de code souveraine

Mistral Devstral 2 : Le retour de l'IA de code souveraine

La contre-attaque européenne dans l'IA de code Avec le lancement de Devstral 2 et de sa version légère Devstral Small 2, Mistral AI reprend des parts de marché dans un secteur récemment dominé p

Lire la suite
Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Nemotron Cascade 2 : le modèle 30B de NVIDIA qui a décroché l'or aux Olympiades de maths et de code

Qu'est-ce que Nemotron Cascade 2 ? Nemotron Cascade 2 (30B-A3B) est un modèle open source publié par NVIDIA le 19 mars 2026. Son chiffre clé est trompeur : 30 milliards de paramètres au tota

Lire la suite
Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qianfan-OCR : le modèle 4B de Baidu qui surpasse Gemini sur l'analyse de documents

Qu'est-ce que Qianfan-OCR ? Qianfan-OCR est un modèle de compréhension de documents publié par Baidu. Il convertit des images de documents — PDFs, scans, photos, captures d'écran — directeme

Lire la suite
Qwen3.5-27B Distillé par Claude 4.6 Opus : Un Moteur de Raisonnement Local

Qwen3.5-27B Distillé par Claude 4.6 Opus : Un Moteur de Raisonnement Local

De quoi s'agit-il ? Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled est un modèle de langage open source de 28 milliards de paramètres publié par Jackrong

Lire la suite
Projet Ava : Quand Razer enferme une IA dans un bocal

Projet Ava : Quand Razer enferme une IA dans un bocal

L'IA sort de l'écran avec Razer Au-delà des souris et des claviers RGB, Razer explore de nouveaux horizons avec le Projet Ava. Ce concept, présenté comme un "compagnon IA dans un bocal", vis

Lire la suite
Technologie éco-responsable et développement durable

Technologie éco-responsable et développement durable

Technologie et écologie : une alliance durable Chez Reeboot, nous croyons fermement que technologie et écologie peuvent aller de pair. Notre mission est de fournir des produits performants tout

Lire la suite
Le monstre Asus ROG Strix SCAR 18, VPN et santé : l'actu tech du jour

Le monstre Asus ROG Strix SCAR 18, VPN et santé : l'actu tech du jour

Introduction : un condensé d'innovations et de vigilance Le monde de la technologie ne s'arrête jamais, et ce matin, l'actualité nous offre un mélange fascinant de performances brutes, de géopoli

Lire la suite
Ubuntu 26.04 LTS : coreutils en Rust, Wayland exclusif et noyau 7.0

Ubuntu 26.04 LTS : coreutils en Rust, Wayland exclusif et noyau 7.0

Ubuntu 26.04 LTS : Resolute Raccoon Ubuntu 26.04 LTS, nom de code Resolute Raccoon, sort le 23 avril 2026. Le nom rend hommage à Steve Langasek, ancien responsable des releases Debian et Ubu

Lire la suite
Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel

Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel

Qu'est-ce que Voxtral-4B ? Voxtral-4B-TTS-2603 est un modèle de synthèse vocale (text-to-speech) publié par Mistral AI en mars 2026. Il convertit du texte en parole réaliste dans 9 langues,

Lire la suite
Windows 11 : Vos applications Android en plein écran sur PC

Windows 11 : Vos applications Android en plein écran sur PC

La fin des frontières entre mobile et PC Microsoft franchit une nouvelle étape majeure dans l'unification de ses systèmes. Grâce à une mise à jour de l'outil "Lien avec Windows" (Phone Link), le

Lire la suite