Performances record
vLLM atteint 2 200 tokens/seconde par GPU H200 en déploiement multi-nœuds avec Infiniband, contre 1 500 tok/s précédemment. Face à HuggingFace TGI, vLLM affiche jusqu'à 24x plus de débit sous forte charge (200 requêtes concurrentes) et une utilisation GPU de 85-92% contre 68-74%.
PagedAttention : la révolution mémoire
Les systèmes traditionnels gaspillent 60-80% de la mémoire KV cache. PagedAttention applique les concepts de pagination mémoire des OS :
- Allocation dynamique à la demande
- Élimination de la fragmentation externe
- Partage du cache entre requêtes identiques
Résultat : moins de 4% de gaspillage mémoire et 19-27% de consommation en moins que TGI.
Version 0.14.0 (janvier 2025)
- 660 commits de 251 contributeurs
- Scheduling asynchrone par défaut
- Serveur gRPC en alternative à REST
--max-model-len autopour ajustement automatique- Support Grok-2, LFM2-VL, MiMo-V2-Flash
- Optimisations CUTLASS MoE (+2.9% throughput)
- Quantification MXFP4 W4A16
Moteur V1 et Wide-EP
Le nouveau moteur V1 (migration complète en v0.11) apporte :
- Wide-EP : parallélisme d'experts pour DeepSeek (37B actifs sur 671B)
- DBO (Dual-Batch Overlap) : chevauchement calcul/communication
- EPLB : rééquilibrage dynamique des experts sans redémarrage
Projet llm-d
Lancé en mai 2025 par Red Hat, Google Cloud, IBM, NVIDIA et CoreWeave, llm-d fournit l'orchestration Kubernetes native au-dessus de vLLM :
- Séparation prefill/decode
- Routage intelligent des requêtes
- Cache distribué global
- Réduction des coûts de 30-50%
Hardware supporté
Contrairement à TensorRT-LLM (NVIDIA only), vLLM supporte : NVIDIA, AMD MI-series, Intel Gaudi/XPU, Google TPU, AWS Inferentia, et CPU (x86, ARM, PowerPC).