Open source

Moondream : le modèle vision-langage de 2 milliards de paramètres qui bat GPT-5 sur certains benchmarks

6 févr. 2026 3 min de lecture Paul Forcadel
Moondream : le modèle vision-langage de 2 milliards de paramètres qui bat GPT-5 sur certains benchmarks

Le pitch

Un modèle de vision-langage capable de décrire une image, répondre à des questions visuelles, détecter des objets et lire des documents — le tout en pesant moins d'un gigaoctet dans sa version la plus légère. C'est Moondream, projet open source sous licence Apache 2.0, et il vient de franchir les 3,2 millions de téléchargements mensuels sur HuggingFace.

Derrière : M87 Labs, une équipe de trois anciens d'AWS. Devant : 9 300 étoiles sur GitHub et un écosystème qui grandit vite.

Trois modèles, trois usages

Moondream existe en trois variantes :

Moondream 0.5B — 500 millions de paramètres, entre 375 et 479 Mo à télécharger. Conçu pour l'embarqué. Il tourne sur un Raspberry Pi, un smartphone, un microcontrôleur. Pas de GPU nécessaire. L'idée : de la vision par ordinateur sur des appareils qui coûtent 50 euros.

Moondream 2B — 2 milliards de paramètres, le modèle principal. Captioning court ou long, questions-réponses visuelles avec raisonnement ancré (« grounded reasoning »), détection d'objets, pointage, lecture de documents. Benchmarks récents : 77,5 sur ChartQA, 80,4 sur ScreenSpot (compréhension d'interface), 79,3 sur DocVQA. Génération de texte 20 à 40 % plus rapide grâce à un tokenizer « superword ».

Moondream 3.0 (preview) — L'artillerie lourde. Architecture mixture-of-experts : 9 milliards de paramètres au total, 64 experts, 8 activés par token, soit 2 milliards de paramètres actifs à chaque inférence. Fenêtre de contexte de 32 000 tokens. Encodeur visuel SigLIP avec multi-cropping pour les images haute résolution.

David contre Goliath

Le fait marquant : Moondream 3.0, avec ses 2 milliards de paramètres actifs, surpasse GPT-5, Gemini et Claude 4 sur plusieurs benchmarks de vision — notamment en détection d'objets (COCO : 51,2, soit +20,7 % par rapport à la version précédente) et en compréhension d'interface utilisateur.

Le tout entraîné sur environ 450 milliards de tokens. Les modèles concurrents ? Des milliers de milliards. Moondream fait plus avec moins, beaucoup moins.

Pourquoi c'est important

Trois raisons.

L'edge computing devient intelligent. Jusqu'ici, la vision par ordinateur sur appareils embarqués se limitait à la classification basique. Moondream 0.5B permet de la compréhension visuelle complète — questions-réponses, détection, OCR — sur du matériel à quelques dizaines d'euros. Drones, caméras de surveillance, robots, dispositifs médicaux portables.

L'open source rattrape le propriétaire. Un modèle Apache 2.0, gratuit, modifiable, déployable sans API payante, qui bat des modèles fermés sur des tâches ciblées. Le rapport qualité/poids est imbattable.

L'architecture MoE prouve sa valeur. Le mixture-of-experts n'active qu'une fraction des paramètres à chaque requête. C'est ce qui permet à Moondream 3.0 de rivaliser avec des modèles 50 à 100 fois plus lourds. Cette approche — déjà utilisée par Mistral et d'autres — confirme que l'avenir de l'IA n'est pas forcément dans le gigantisme.

Partager cet article

Sources

Références et articles originaux

Rédigé par

Paul Forcadel

Paul Forcadel

Fondateur & Rédacteur en chef

Passionné d'IA et de technologies émergentes, Paul décrypte les dernières avancées en intelligence artificielle pour les rendre accessibles à tous.

Parcourir par catégorie

Newsletter

Recevez les actus IA directement dans votre boîte mail.

Suivez-nous

Retrouvez-nous sur les réseaux pour ne rien rater.