>_Reeboot
Hugging Face TGI supporte désormais vLLM et TensorRT-LLM
IA

Hugging Face TGI supporte désormais vLLM et TensorRT-LLM

Hugging Face annonce le support multi-backends pour TGI, permettant désormais d'utiliser vLLM et TensorRT-LLM pour l'inférence de LLM en production. Une flexibilité accrue pour les performances.

L'écosystème de l'inférence de modèles de langage (LLM) évolue rapidement. Si Hugging Face proposait déjà Text Generation Inference (TGI) comme solution de référence pour servir des modèles en production, l'ajout récent du support multi-backends marque une étape majeure. TGI permet désormais d'utiliser les moteurs vLLM et TensorRT-LLM comme backends d'exécution, offrant une flexibilité inédite aux ingénieurs DevOps et MLOps.

Pourquoi un support multi-backend pour TGI ?

Jusqu'ici, TGI s'appuyait sur une implémentation propriétaire pour l'optimisation des kernels et la gestion de la mémoire KV-cache. Cette approche offrait d'excellentes performances, mais limitait les options de déploiement et de matériel.

En intégrant vLLM et TensorRT-LLM, Hugging Face simplifie la transition entre les différents environnements d'exécution :

  • vLLM : Reconnu pour son algorithme PagedAttention, il excelle dans la gestion de la mémoire KV-cache et la maximisation du débit (throughput) sur une large gamme de GPU.
  • TensorRT-LLM : Développé par NVIDIA, ce backend permet d'exploiter au mieux les architectures GPU spécifiques (comme les architectures Ampere, Hopper ou Blackwell) pour réduire drastiquement la latence en production.

Les avantages pour le déploiement en production

L'unification sous TGI permet aux équipes de conserver une interface utilisateur (API) et une gestion des déploiements cohérentes, quel que soit le moteur d'exécution choisi.

  1. Flexibilité matérielle : Vous pouvez désormais choisir le backend le mieux adapté à vos contraintes matérielles sans changer l'architecture applicative de votre pile d'inférence.
  2. Optimisation des performances : Le choix entre la latence ultra-faible de TensorRT-LLM et le débit massif de vLLM permet un réglage fin selon le cas d'usage (chat en temps réel vs traitement par batch).
  3. Réduction de la complexité DevOps : Au lieu de gérer différents pipelines de déploiement, vous conservez les avantages de TGI (monitoring, sécurité, mise à l'échelle) tout en bénéficiant des avancées technologiques de la communauté.

Une adoption simplifiée

L'utilisation de ces nouveaux backends dans TGI est conçue pour être intuitive. Il suffit de configurer les variables d'environnement appropriées au lancement du conteneur TGI pour basculer d'un moteur à l'autre. Hugging Face continue ainsi de standardiser l'inférence des LLM, facilitant l'adoption de modèles open source dans des environnements d'entreprise exigeants.

Cette mise à jour témoigne de la volonté de Hugging Face de favoriser l'interopérabilité et de ne pas enfermer les utilisateurs dans une solution technique unique. Pour les développeurs, cela signifie une plus grande agilité face aux évolutions rapides du matériel et des optimisations logicielles.