Produits

Docker Model Runner : exécuter des LLMs en local comme un simple conteneur

26 janv. 2026 3 min de lecture Paul Forcadel
Docker Model Runner : exécuter des LLMs en local comme un simple conteneur

Les LLMs deviennent des conteneurs

Docker Model Runner (DMR) intègre un moteur d'inférence directement dans Docker Desktop. L'idée : traiter les modèles IA comme n'importe quel artefact Docker — on pull, on tag, on versionne, on run. Sans cluster GPU ni API cloud.

docker model pull ai/llama3.3
docker model run ai/llama3.3

Les modèles sont stockés localement après le premier téléchargement, chargés en mémoire à la demande et déchargés quand inactifs.

Trois moteurs d'inférence

DMR supporte trois backends selon le format du modèle :

Moteur Format Cas d'usage
llama.cpp GGUF Dev local, toutes plateformes
vLLM Safetensors Production, haut débit
Diffusers Safetensors Génération d'images

Le routage est automatique : un modèle GGUF passe par llama.cpp, un safetensors par vLLM.

Support GPU multi-plateforme

Depuis l'ajout du support Vulkan (octobre 2025), DMR couvre :

  • NVIDIA : CUDA (drivers 576.57+)
  • AMD / Intel : Vulkan (détection automatique)
  • Apple Silicon : Metal
  • Qualcomm Adreno : série 6xx+
  • CPU : fallback automatique si aucun GPU disponible

La différence est significative : ~3 secondes de réponse avec GPU contre ~10 secondes en CPU.

Docker Compose pour l'IA

Depuis Compose v2.35+, on peut déclarer un modèle IA comme service :

services:
  llm:
    provider:
      type: model
      options:
        model: ai/llama3.3
  app:
    build: .
    depends_on:
      - llm

L'API est compatible OpenAI : les applications existantes fonctionnent sans modification.

Modèles disponibles

Le namespace ai/ de Docker Hub propose :

  • Meta Llama 3.1, 3.2, 3.3 (128K contexte, multilingue)
  • Mistral (inférence rapide)
  • Google Gemma 3 (compact, performant)
  • Microsoft Phi-4 (raisonnement, code)
  • DeepSeek, Qwen, modèles d'embeddings spécialisés

Sandboxes pour agents de code

Le 30 janvier 2026, Docker a annoncé des sandboxes sécurisés basés sur des microVMs pour Claude Code, Gemini, Codex et Kiro. Les agents de code tournent dans un environnement isolé avec accès contrôlé au filesystem.

Partenariats

Docker collabore avec Google, HuggingFace, Qualcomm, NVIDIA, Spring AI et VMware Tanzu pour intégrer les derniers modèles et frameworks directement dans l'écosystème.

Partager cet article

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Parcourir par catégorie

Newsletter

Recevez les actus IA directement dans votre boîte mail.

Suivez-nous

Retrouvez-nous sur les réseaux pour ne rien rater.