vLLM 0.14 : 2 200 tokens/s par GPU H200 avec Wide-EP

Performances record

vLLM atteint 2 200 tokens/seconde par GPU H200 en déploiement multi-nœuds avec Infiniband, contre 1 500 tok/s précédemment. Face à HuggingFace TGI, vLLM affiche jusqu'à 24x plus de débit sous forte charge (200 requêtes concurrentes) et une utilisation GPU de 85-92% contre 68-74%.

PagedAttention : la révolution mémoire

Les systèmes traditionnels gaspillent 60-80% de la mémoire KV cache. PagedAttention applique les concepts de pagination mémoire des OS :

Allocation dynamique à la demande
Élimination de la fragmentation externe
Partage du cache entre requêtes identiques

Résultat : moins de 4% de gaspillage mémoire et 19-27% de consommation en moins que TGI.

Version 0.14.0 (janvier 2025)

660 commits de 251 contributeurs
Scheduling asynchrone par défaut
Serveur gRPC en alternative à REST
--max-model-len auto pour ajustement automatique
Support Grok-2, LFM2-VL, MiMo-V2-Flash
Optimisations CUTLASS MoE (+2.9% throughput)
Quantification MXFP4 W4A16

Moteur V1 et Wide-EP

Le nouveau moteur V1 (migration complète en v0.11) apporte :

Wide-EP : parallélisme d'experts pour DeepSeek (37B actifs sur 671B)
DBO (Dual-Batch Overlap) : chevauchement calcul/communication
EPLB : rééquilibrage dynamique des experts sans redémarrage

Projet llm-d

Lancé en mai 2025 par Red Hat, Google Cloud, IBM, NVIDIA et CoreWeave, llm-d fournit l'orchestration Kubernetes native au-dessus de vLLM :

Séparation prefill/decode
Routage intelligent des requêtes
Cache distribué global
Réduction des coûts de 30-50%

Hardware supporté

Contrairement à TensorRT-LLM (NVIDIA only), vLLM supporte : NVIDIA, AMD MI-series, Intel Gaudi/XPU, Google TPU, AWS Inferentia, et CPU (x86, ARM, PowerPC).

vLLM 0.14 : 2 200 tokens/s par GPU H200 avec Wide-EP

Performances record

PagedAttention : la révolution mémoire

Version 0.14.0 (janvier 2025)

Moteur V1 et Wide-EP

Projet llm-d

Hardware supporté

Sources

Rédigé par

Paul Forcadel

Parcourir par catégorie

Newsletter

Suivez-nous