LFM2.5-VL-450M : le modèle vision de 450M de Liquid AI qui tourne dans un navigateur
- Bastien
- 17 Apr, 2026
Qu’est-ce que LFM2.5-VL-450M
La plupart des modèles vision-langage rivalisent sur l’échelle — des milliards de paramètres, des centaines d’heures GPU pour l’inférence. Liquid AI prend l’approche inverse. LFM2.5-VL-450M est un modèle multimodal de 450M paramètres qui comprend les images et le texte dans 9 langues, prédit des boîtes englobantes, supporte l’appel de fonctions, et exécute le sous-titrage vidéo en temps réel directement dans un navigateur via WebGPU.
À 0.4B paramètres, il est environ 500 fois plus petit que les modèles frontières comme MiniMax-M2.7 ou GPT-5. Pourtant, il surpasse SmolVLM2-500M sur presque tous les benchmarks et introduit des capacités — ancrage visuel, utilisation d’outils — que des modèles 10 fois plus gros n’offrent souvent pas.
Architecture
LFM2.5-VL-450M combine deux composants :
- LFM2.5-350M — un Transformer dense de 350M servant de backbone linguistique (32K tokens de contexte, vocabulaire de 65K)
- SigLIP2 NaFlex — un encodeur visuel de 86M optimisé pour la forme, qui traite les images en résolution native jusqu’à 512×512 sans redimensionnement ni distorsion du rapport d’aspect
Pour les images plus grandes, l’encodeur utilise une stratégie de pavage adaptatif : des patches de 512×512 sans chevauchement avec un encodage miniature pour le contexte global. L’utilisateur peut ajuster le compromis qualité/vitesse à l’inférence en modifiant max_image_tokens (32–256) et le nombre de tuiles — sans réentraînement.
Le modèle est distribué en BF16 (safetensors), avec des formats GGUF, ONNX et plusieurs quantifications MLX (4-bit à BF16) pour Apple Silicon.
Résultats sur les benchmarks
Compréhension visuelle
| Benchmark | LFM2.5-VL-450M | LFM2-VL-450M | SmolVLM2-500M |
|---|---|---|---|
| MMStar | 43.0 | 40.9 | 38.2 |
| RealWorldQA | 58.4 | 52.0 | 49.9 |
| MMBench (dev en) | 60.9 | 56.3 | 52.3 |
| POPE | 86.9 | 83.8 | 82.7 |
| MMVet | 41.1 | 33.9 | 29.9 |
| OCRBench | 684 | 657 | 609 |
| MM-IFEval | 45.0 | 33.1 | 11.3 |
| CountBench | 73.3 | 47.6 | 61.8 |
| RefCOCO-M | 81.3 | — | — |
LFM2.5-VL domine sur tous les benchmarks visuels sauf MMMU (32.7 contre 34.1 pour SmolVLM2 — un benchmark intensif en connaissances où les modèles plus grands ont un avantage structurel). Le bond de MM-IFEval de 33.1 à 45.0 reflète un suivi d’instructions nettement amélioré sur les tâches visuelles.
RefCOCO-M à 81.3 est une capacité nouvelle : la prédiction de boîtes englobantes pour l’ancrage visuel, absente de la génération précédente LFM2.
Vision multilingue (MMMB)
| LFM2.5-VL-450M | LFM2-VL-450M | SmolVLM2-500M |
|---|---|---|
| 68.1 | 54.3 | 46.8 |
MMMB moyenne la compréhension visuelle sur 8 langues (arabe, chinois, français, allemand, japonais, coréen, portugais, espagnol). L’amélioration de +13.8 points par rapport à la version précédente est le gain le plus important sur un seul benchmark.
Langage et utilisation d’outils
| Benchmark | LFM2.5-VL-450M | LFM2-VL-450M | SmolVLM2-500M |
|---|---|---|---|
| MMLU Pro | 19.3 | 17.2 | 13.6 |
| IFEval | 61.2 | 51.8 | 30.1 |
| Multi-IF | 34.6 | 26.2 | 6.8 |
| BFCLv4 | 21.1 | — | — |
IFEval à 61.2 — le double du score de SmolVLM2 — montre que le suivi d’instructions dépend de la qualité de l’entraînement, pas seulement du nombre de paramètres. BFCLv4 est un nouveau benchmark d’appel de fonctions ; LFM2-VL ne supportait pas du tout l’utilisation d’outils.
Capacités clés
Ancrage visuel — M2.5-VL peut prédire des boîtes englobantes en coordonnées normalisées [0,1], retournées sous forme de tableaux JSON. Cela permet des workflows de détection d’objets sans modèle de détection séparé.
Appel de fonctions — utilisation d’outils en texte seul au format ChatML avec les tokens <|tool_call_start|> / <|tool_call_end|>. Le modèle peut décider quand appeler des fonctions et formater les arguments correctement.
Vision multilingue — le support de 9 langues n’est pas greffé : le modèle a été entraîné avec la compréhension visuelle multilingue comme objectif de premier plan, obtenant 68.1 sur MMMB (contre 46.8 pour SmolVLM2).
Flexibilité à l’inférence — min_image_tokens et max_image_tokens permettent de moduler qualité et vitesse sans réentraînement. Un déploiement mobile peut utiliser 32 tokens par image ; un pipeline desktop peut en utiliser 256.
Déploiement
LFM2.5-VL-450M est conçu pour fonctionner partout :
| Framework | Cas d’usage |
|---|---|
| Transformers | Inférence simple, fine-tuning |
| vLLM | Production GPU haut débit |
| SGLang | Production GPU haut débit |
| llama.cpp | Inférence CPU, déploiement local |
| ONNX Runtime | Multi-plateforme, accélération matérielle |
| MLX | Apple Silicon (4-bit à BF16) |
| WebGPU | Navigateur, sous-titrage vidéo temps réel |
La démo WebGPU exécute le sous-titrage vidéo en temps réel entièrement dans le navigateur — pas de serveur, pas d’API, pas de GPU requis.
Paramètres de génération par défaut : temperature=0.1, min_p=0.15, repetition_penalty=1.05.
Le fine-tuning est supporté via LoRA avec Unsloth et TRL.
Limites
À 450M paramètres, LFM2.5-VL n’est pas adapté aux tâches intensives en connaissances — MMMU à 32.7 et MMLU Pro à 19.3 le confirment. C’est un modèle de perception et de suivi d’instructions, pas un modèle de raisonnement.
L’OCR fine-grained est reconnu comme une limite malgré le score OCRBench de 684. L’appel de fonctions est uniquement textuel — l’utilisation d’outils ne supporte pas l’entrée visuelle. Le traitement d’images est plafonné à 512×512 par tuile, les images plus grandes étant découpées en patches.
Conclusion
LFM2.5-VL-450M prouve que des capacités vision-langage utiles ne nécessitent pas des milliards de paramètres. Ancrage visuel, appel de fonctions, support de 9 langues et inférence temps réel dans le navigateur — le tout dans un modèle qui tient dans 900 Mo de VRAM — en font le VLM le plus flexible en déploiement disponible aujourd’hui.
Pour les applications edge, les déploiements mobiles, les outils dans le navigateur, ou tout scénario où un modèle de 70B est impraticable, LFM2.5-VL comble un vide que les modèles plus grands ne peuvent atteindre par conception.
Modèle : LiquidAI/LFM2.5-VL-450M · Article : arxiv.org/abs/2511.23404
Tags :
- IA
- Liquid AI
- VLM
- Vision
- Edge AI
- Open Source