DeepSeek-V4-Pro : Modèle LLM à contexte de million de tokens très efficace
- Bastien
- 30 Apr, 2026
Introduction
DeepSeek-V4-Pro est la version préliminaire de la série DeepSeek‑V4, mise à disposition en 2026. Ce modèle propose au total 1,6 trillion de paramètres (49 billion d’experts activés) et accepte jusqu’à un million de tokens en contexte, soit une amélioration de plus de 30× sur la plupart des LLM grand public. L’architecture hybride, couplée à l’optimiseur Muon, permet d’atteindre ces performances tout en conservant une empreinte mémoire compatible avec un GPU haut de gamme (RTX 4090 ou équivalent).
Architecture
-
Attention hybride (CSA + HCA).
La Compressed Sparse Attention (CSA) ne conserve que les paires token‑pair qui apparaissent dans les top‑k scores pré‑calculés, réduisant le coût de l’attention quadratique en O(k∙seq_len).
Heavily Compressed Attention (HCA) applique une compression exponentielle à chaque couche en limitant le nombre de tokens qui sont réellement stockés dans la matrice KV à 10 % d’un modèle dense. L’association des deux diminue les FLOPs à ~27 % de ceux d’un transformer standard tout en gardant seulement 10 % du cache KV, ce qui rend un contexte d’un million de tokens possible même sur un GPU de 24 GB. -
Manifold‑Constrained Hyper‑Connections (mHC).
Les connexions résiduelles classiques sont remplacées par des hyper‑connexions dont les poids sont contrainte à rester sur une manifold apprivoisée pendant l’entraînement. Cela évite le phénomène de “pathological gradient” dans les réseaux très profonds et a montré une accélération de 1,3× vitesse de convergence lors de l’étape de distillation RL. -
Optimiseur Muon.
Combinaison d’un schéma d’adaptation de taux d’apprentissage très réactif et d’une déco‑coupling de la décrémentation. Par rapport à AdamW, Muon a réduit le loss de validation de 0,8 % sur les benchmarks de raisonnement tout en nécessité de 15 % de GPU‑hours en moins pour un même budget de tokens. -
Mixture‑of‑Experts (49 B d’experts activés).
Le modèle possède 256 experts spécialisés, dont chaque token active en moyenne 13 B paramètres. La sélection d’experts est effectuée par un réseau de routing très léger ajouté au-dessus de chaque couche, ce qui permet de maintenir les performances tout en limitant la bande passante mémoire. L’efficacité MoE est la clé du raisonnement de haut niveau dans le régime “Think Max”.
Points forts des benchmarks
- AGIEval (EM) : 83,1 – forte compréhension linguistique et capacité à résoudre des tâches non‑triviales sans exemples de démonstration.
- MMLU‑Pro (EM) : 90,1 – connaissances factuelles multi‑domaines, en particulier dans des réponses nécessitant un contexte de plusieurs dizaines de milliers de tokens.
- LiveCodeBench (Pass@1) : 93,5 – performances comparables à des LLM de plus grande taille (40 B +), avec une préférence pour les prompts de raisonnement en chaîne de pensée.
- LongBench‑V2 (EM) : 51,5 – montre que le modèle garde une précision élevée sur les 19 tâches de contexte long, même lorsque les passages d’information sont disséminés sur plus de 500 K tokens.
- NIAH @ 1 M tokens : 99,0 – la célèbre tâche Needle‑In‑A‑Haystack maintient une précision quasi parfaite, prouvant que la représentation des faits persiste dans une fenêtre de contexte astronomique.
Comparaison avec DeepSeek‑V3
DeepSeek‑V4‑Pro dépasse DeepSeek‑V3 en moyenne de 6,4 % d’accuracy sur les évaluations de longue séquence, et de 3,1 % sur le benchmark de code. La taille active (49 B) est légèrement plus élevée que celle de V3‑Pro (33 B), mais grâce à l’optimisation mHC et Muon, l’empreinte GPU reste comparable.
Diagramme du modèle
Guide d’utilisation pratique
# Installation via Hugging Face
pip install transformers[torch] peft
# Charger le modèle en mode « Thinking » (raisonnement étendu)
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
import torch
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
model = AutoModelForCausalLM.from_pretrained(
"deepseek-ai/DeepSeek-V4-Pro",
torch_dtype=torch.bfloat16,
device_map="auto",
attn_implementation="custom_mhc" # active mHC
)
messages = [
{"role": "user", "content": "Explique la différence entre CSA et HCA dans l'attention."},
{"role": "assistant", "content": "", "reasoning_content": "thinking ..."}
]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True, enable_thinking=True
)
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(model.device)
output = model.generate(input_ids, **GenerationConfig(
temperature=1.0,
top_p=1.0,
max_new_tokens=1024,
pad_token_id=tokenizer.pad_token_id
))
print(tokenizer.decode(output[0], skip_special_tokens=True))
Pour le mode Think Max, il faut une longueur maximale de séquence d’au moins 384 K tokens. Ajustez max_position_embeddings dans le fichier de configuration ou utilisez le chargement dynamique de transformers pour charger une variante 1 M de max_position_embeddings (délibérément disponible via le hub sous le tag v4-pro-max).
### Licence
Le modèle et le card de modèle sont fournis sous licence MIT. Le code d’inférence (serveur Docker, conversion en GGUF) est MIT‑compliant mais les scripts de fine‑tuning sont sous licence Apache 2.0.
### Citation
```bibtex
@misc{deepseekai2026.deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek‑AI},
year={2026}
}
Contact
Pour toute question, ouvrez une issue sur le dépôt GitHub de DeepSeek‑AI ou écrivez à service@deepseek.com.
Tags :
- IA
- DeepSeek
- Mixture of Experts
- LLM
- Benchmark