Les LLMs deviennent des conteneurs
Docker Model Runner (DMR) intègre un moteur d'inférence directement dans Docker Desktop. L'idée : traiter les modèles IA comme n'importe quel artefact Docker — on pull, on tag, on versionne, on run. Sans cluster GPU ni API cloud.
docker model pull ai/llama3.3
docker model run ai/llama3.3
Les modèles sont stockés localement après le premier téléchargement, chargés en mémoire à la demande et déchargés quand inactifs.
Trois moteurs d'inférence
DMR supporte trois backends selon le format du modèle :
| Moteur | Format | Cas d'usage |
|---|---|---|
| llama.cpp | GGUF | Dev local, toutes plateformes |
| vLLM | Safetensors | Production, haut débit |
| Diffusers | Safetensors | Génération d'images |
Le routage est automatique : un modèle GGUF passe par llama.cpp, un safetensors par vLLM.
Support GPU multi-plateforme
Depuis l'ajout du support Vulkan (octobre 2025), DMR couvre :
- NVIDIA : CUDA (drivers 576.57+)
- AMD / Intel : Vulkan (détection automatique)
- Apple Silicon : Metal
- Qualcomm Adreno : série 6xx+
- CPU : fallback automatique si aucun GPU disponible
La différence est significative : ~3 secondes de réponse avec GPU contre ~10 secondes en CPU.
Docker Compose pour l'IA
Depuis Compose v2.35+, on peut déclarer un modèle IA comme service :
services:
llm:
provider:
type: model
options:
model: ai/llama3.3
app:
build: .
depends_on:
- llm
L'API est compatible OpenAI : les applications existantes fonctionnent sans modification.
Modèles disponibles
Le namespace ai/ de Docker Hub propose :
- Meta Llama 3.1, 3.2, 3.3 (128K contexte, multilingue)
- Mistral (inférence rapide)
- Google Gemma 3 (compact, performant)
- Microsoft Phi-4 (raisonnement, code)
- DeepSeek, Qwen, modèles d'embeddings spécialisés
Sandboxes pour agents de code
Le 30 janvier 2026, Docker a annoncé des sandboxes sécurisés basés sur des microVMs pour Claude Code, Gemini, Codex et Kiro. Les agents de code tournent dans un environnement isolé avec accès contrôlé au filesystem.
Partenariats
Docker collabore avec Google, HuggingFace, Qualcomm, NVIDIA, Spring AI et VMware Tanzu pour intégrer les derniers modèles et frameworks directement dans l'écosystème.