Voxtral-4B : le modèle TTS open weights de Mistral qui parle 9 langues en temps réel
- Bastien
- 30 Mar, 2026
Qu’est-ce que Voxtral-4B ?
Voxtral-4B-TTS-2603 est un modèle de synthèse vocale (text-to-speech) publié par Mistral AI en mars 2026. Il convertit du texte en parole réaliste dans 9 langues, avec 20 voix prédéfinies et la capacité d’adaptation à une voix personnalisée à partir d’un court extrait audio.
Le modèle est construit sur Ministral-3B-Base-2512, le modèle de base compact de Mistral, et porté à 4 milliards de paramètres au total. Il génère de l’audio à 24 kHz dans les formats WAV, PCM, FLAC, MP3, AAC ou Opus. Ce qui compte le plus pour la production : il délivre un premier chunk audio en 70 millisecondes à une concurrence unitaire — ce qui le rend réellement utilisable dans des pipelines vocaux temps réel.
Il est publié sous licence CC BY-NC 4.0 — utilisable gratuitement pour des applications non commerciales, avec Mistral AI Studio pour un accès commercial.
Architecture et pipeline
Le modèle suit l’architecture des systèmes TTS basés sur les LLM : un backbone de modèle de langage qui apprend à prédire des tokens audio, lesquels sont ensuite décodés en forme d’onde. L’avantage clé par rapport aux pipelines TTS classiques : le backbone LLM comprend déjà la sémantique du langage, les indices de prosodie et le contexte émotionnel — pas besoin de prétraitement NLP séparé.
L’adaptation de voix fonctionne en fournissant un court extrait de référence (10 secondes). Le modèle conditionne sa génération sur les caractéristiques du locuteur de cet audio sans aucun fine-tuning.
Langues et voix
9 langues sont prises en charge nativement :
| Langue | Couverture régionale |
|---|---|
| Anglais | Plusieurs dialectes |
| Français | — |
| Espagnol | Plusieurs dialectes |
| Allemand | — |
| Italien | — |
| Portugais | — |
| Néerlandais | — |
| Arabe | Plusieurs dialectes |
| Hindi | — |
20 voix prédéfinies sont incluses, avec des variations de genre, d’âge et de registre. L’adaptation à une voix personnalisée est disponible via Mistral AI Studio ou en passant directement une référence audio à l’API.
Résultats des benchmarks
Testés sur un seul NVIDIA H200, avec 500 caractères en entrée et une référence audio de 10 secondes, sous vLLM v0.18.0 :
| Concurrence | Latence premier audio | RTF | Débit (car/s/GPU) |
|---|---|---|---|
| 1 | 70 ms | 0,103 | 119 |
| 16 | 331 ms | 0,237 | 879 |
| 32 | 552 ms | 0,302 | 1 431 |
Le RTF (Real-Time Factor) mesure la rapidité de génération audio par rapport à la durée de la sortie. Un RTF de 0,103 à une concurrence de 1 signifie que le modèle génère environ 10× plus vite que le temps réel — il produit 1 seconde d’audio en environ 103 ms.
À 32 requêtes simultanées, le modèle traite 1 431 caractères par seconde sur un seul GPU — suffisant pour un déploiement d’agents vocaux à grande échelle sans mise à l’échelle horizontale.
Déploiement avec vLLM
Voxtral utilise le backend de service vLLM-Omni, qui expose un endpoint /audio/speech compatible OpenAI. Installation et lancement :
uv pip install -U vllm # >= 0.18.0
uv pip install git+https://github.com/vllm-project/vllm-omni.git --upgrade
vllm serve mistralai/Voxtral-4B-TTS-2603 --omni
Effectuer une requête :
import io
import httpx
import soundfile as sf
payload = {
"input": "Paris est une belle ville !",
"model": "mistralai/Voxtral-4B-TTS-2603",
"response_format": "wav",
"voice": "casual_male",
}
response = httpx.post("http://localhost:8000/v1/audio/speech", json=payload, timeout=120.0)
audio_array, sr = sf.read(io.BytesIO(response.content), dtype="float32")
print(f"Audio reçu : {len(audio_array)} samples à {sr} Hz")
L’API compatible OpenAI signifie que le code existant construit sur openai.audio.speech fonctionne avec des modifications minimales — il suffit de changer l’URL de base et le nom du modèle.
Prérequis matériel : ≥16 Go de VRAM (poids BF16). Fonctionne sur un seul GPU grand public comme une RTX 4090 ou un A10 cloud.
Cas d’usage
La combinaison de faible latence et de support multilingue cible spécifiquement les workflows d’agents vocaux — les scénarios où un utilisateur parle en temps réel et s’attend à une réponse en moins d’une seconde. À 70 ms jusqu’au premier audio, Voxtral s’intègre dans les échanges conversationnels sans le délai gênant qui dégrade l’expérience utilisateur dans la plupart des systèmes TTS.
Limites
- CC BY-NC 4.0 — usage non commercial uniquement ; l’usage commercial nécessite un accord avec Mistral AI
- Pas de STT intégré — Voxtral est TTS uniquement ; il faut un modèle speech-to-text séparé pour une conversation vocale complète
- 16 Go de VRAM minimum — exclut les GPU d’entrée de gamme et l’inférence CPU
- Dépendance vLLM-Omni — légèrement plus complexe que le vLLM standard ; nécessite le package séparé
vllm-omnipour le moment - Les datasets d’entraînement des voix (EARS, CML-TTS, IndicVoices-R, Arabic Natural Audio) sont également sous CC BY-NC 4.0
Conclusion
Voxtral-4B comble un créneau précis : un modèle TTS compact, open weights, avec une latence de niveau production et une vraie couverture multilingue. La plupart des modèles TTS ouverts manquent soit du support multi-langue, soit d’une inférence rapide, soit d’une configuration GPU abordable. Voxtral répond aux trois contraintes à la fois — 9 langues, 70 ms de latence, un seul GPU.
Pour les développeurs qui construisent des agents vocaux, des outils d’accessibilité ou des applications de traduction temps réel, c’est l’option TTS open source la plus capable disponible dans la classe des modèles 4B.
Modèle : mistralai/Voxtral-4B-TTS-2603 — Licence CC BY-NC 4.0
Tags :
- IA
- Mistral
- TTS
- Voix
- Audio
- Open Source