Docker Model Runner : exécuter des LLMs en local comme un simple conteneur

Les LLMs deviennent des conteneurs

Docker Model Runner (DMR) intègre un moteur d'inférence directement dans Docker Desktop. L'idée : traiter les modèles IA comme n'importe quel artefact Docker — on pull, on tag, on versionne, on run. Sans cluster GPU ni API cloud.

docker model pull ai/llama3.3
docker model run ai/llama3.3

Les modèles sont stockés localement après le premier téléchargement, chargés en mémoire à la demande et déchargés quand inactifs.

Trois moteurs d'inférence

DMR supporte trois backends selon le format du modèle :

Moteur	Format	Cas d'usage
llama.cpp	GGUF	Dev local, toutes plateformes
vLLM	Safetensors	Production, haut débit
Diffusers	Safetensors	Génération d'images

Le routage est automatique : un modèle GGUF passe par llama.cpp, un safetensors par vLLM.

Support GPU multi-plateforme

Depuis l'ajout du support Vulkan (octobre 2025), DMR couvre :

NVIDIA : CUDA (drivers 576.57+)
AMD / Intel : Vulkan (détection automatique)
Apple Silicon : Metal
Qualcomm Adreno : série 6xx+
CPU : fallback automatique si aucun GPU disponible

La différence est significative : ~3 secondes de réponse avec GPU contre ~10 secondes en CPU.

Docker Compose pour l'IA

Depuis Compose v2.35+, on peut déclarer un modèle IA comme service :

services:
  llm:
    provider:
      type: model
      options:
        model: ai/llama3.3
  app:
    build: .
    depends_on:
      - llm

L'API est compatible OpenAI : les applications existantes fonctionnent sans modification.

Modèles disponibles

Le namespace ai/ de Docker Hub propose :

Meta Llama 3.1, 3.2, 3.3 (128K contexte, multilingue)
Mistral (inférence rapide)
Google Gemma 3 (compact, performant)
Microsoft Phi-4 (raisonnement, code)
DeepSeek, Qwen, modèles d'embeddings spécialisés

Sandboxes pour agents de code

Le 30 janvier 2026, Docker a annoncé des sandboxes sécurisés basés sur des microVMs pour Claude Code, Gemini, Codex et Kiro. Les agents de code tournent dans un environnement isolé avec accès contrôlé au filesystem.

Partenariats

Docker collabore avec Google, HuggingFace, Qualcomm, NVIDIA, Spring AI et VMware Tanzu pour intégrer les derniers modèles et frameworks directement dans l'écosystème.

Docker Model Runner : exécuter des LLMs en local comme un simple conteneur

Les LLMs deviennent des conteneurs

Trois moteurs d'inférence

Support GPU multi-plateforme

Docker Compose pour l'IA

Modèles disponibles

Sandboxes pour agents de code

Partenariats

Sources

Rédigé par

Paul Forcadel

Parcourir par catégorie

Newsletter

Suivez-nous