Open source

vLLM 0.14 : 2 200 tokens/s par GPU H200 avec Wide-EP

20 janv. 2026 3 min de lecture Paul Forcadel
vLLM 0.14 : 2 200 tokens/s par GPU H200 avec Wide-EP

Performances record

vLLM atteint 2 200 tokens/seconde par GPU H200 en déploiement multi-nœuds avec Infiniband, contre 1 500 tok/s précédemment. Face à HuggingFace TGI, vLLM affiche jusqu'à 24x plus de débit sous forte charge (200 requêtes concurrentes) et une utilisation GPU de 85-92% contre 68-74%.

PagedAttention : la révolution mémoire

Les systèmes traditionnels gaspillent 60-80% de la mémoire KV cache. PagedAttention applique les concepts de pagination mémoire des OS :

  • Allocation dynamique à la demande
  • Élimination de la fragmentation externe
  • Partage du cache entre requêtes identiques

Résultat : moins de 4% de gaspillage mémoire et 19-27% de consommation en moins que TGI.

Version 0.14.0 (janvier 2025)

  • 660 commits de 251 contributeurs
  • Scheduling asynchrone par défaut
  • Serveur gRPC en alternative à REST
  • --max-model-len auto pour ajustement automatique
  • Support Grok-2, LFM2-VL, MiMo-V2-Flash
  • Optimisations CUTLASS MoE (+2.9% throughput)
  • Quantification MXFP4 W4A16

Moteur V1 et Wide-EP

Le nouveau moteur V1 (migration complète en v0.11) apporte :

  • Wide-EP : parallélisme d'experts pour DeepSeek (37B actifs sur 671B)
  • DBO (Dual-Batch Overlap) : chevauchement calcul/communication
  • EPLB : rééquilibrage dynamique des experts sans redémarrage

Projet llm-d

Lancé en mai 2025 par Red Hat, Google Cloud, IBM, NVIDIA et CoreWeave, llm-d fournit l'orchestration Kubernetes native au-dessus de vLLM :

  • Séparation prefill/decode
  • Routage intelligent des requêtes
  • Cache distribué global
  • Réduction des coûts de 30-50%

Hardware supporté

Contrairement à TensorRT-LLM (NVIDIA only), vLLM supporte : NVIDIA, AMD MI-series, Intel Gaudi/XPU, Google TPU, AWS Inferentia, et CPU (x86, ARM, PowerPC).

Partager cet article

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Parcourir par catégorie

Newsletter

Recevez les actus IA directement dans votre boîte mail.

Suivez-nous

Retrouvez-nous sur les réseaux pour ne rien rater.