Le pitch
Un modèle de vision-langage capable de décrire une image, répondre à des questions visuelles, détecter des objets et lire des documents — le tout en pesant moins d'un gigaoctet dans sa version la plus légère. C'est Moondream, projet open source sous licence Apache 2.0, et il vient de franchir les 3,2 millions de téléchargements mensuels sur HuggingFace.
Derrière : M87 Labs, une équipe de trois anciens d'AWS. Devant : 9 300 étoiles sur GitHub et un écosystème qui grandit vite.
Trois modèles, trois usages
Moondream existe en trois variantes :
Moondream 0.5B — 500 millions de paramètres, entre 375 et 479 Mo à télécharger. Conçu pour l'embarqué. Il tourne sur un Raspberry Pi, un smartphone, un microcontrôleur. Pas de GPU nécessaire. L'idée : de la vision par ordinateur sur des appareils qui coûtent 50 euros.
Moondream 2B — 2 milliards de paramètres, le modèle principal. Captioning court ou long, questions-réponses visuelles avec raisonnement ancré (« grounded reasoning »), détection d'objets, pointage, lecture de documents. Benchmarks récents : 77,5 sur ChartQA, 80,4 sur ScreenSpot (compréhension d'interface), 79,3 sur DocVQA. Génération de texte 20 à 40 % plus rapide grâce à un tokenizer « superword ».
Moondream 3.0 (preview) — L'artillerie lourde. Architecture mixture-of-experts : 9 milliards de paramètres au total, 64 experts, 8 activés par token, soit 2 milliards de paramètres actifs à chaque inférence. Fenêtre de contexte de 32 000 tokens. Encodeur visuel SigLIP avec multi-cropping pour les images haute résolution.
David contre Goliath
Le fait marquant : Moondream 3.0, avec ses 2 milliards de paramètres actifs, surpasse GPT-5, Gemini et Claude 4 sur plusieurs benchmarks de vision — notamment en détection d'objets (COCO : 51,2, soit +20,7 % par rapport à la version précédente) et en compréhension d'interface utilisateur.
Le tout entraîné sur environ 450 milliards de tokens. Les modèles concurrents ? Des milliers de milliards. Moondream fait plus avec moins, beaucoup moins.
Pourquoi c'est important
Trois raisons.
L'edge computing devient intelligent. Jusqu'ici, la vision par ordinateur sur appareils embarqués se limitait à la classification basique. Moondream 0.5B permet de la compréhension visuelle complète — questions-réponses, détection, OCR — sur du matériel à quelques dizaines d'euros. Drones, caméras de surveillance, robots, dispositifs médicaux portables.
L'open source rattrape le propriétaire. Un modèle Apache 2.0, gratuit, modifiable, déployable sans API payante, qui bat des modèles fermés sur des tâches ciblées. Le rapport qualité/poids est imbattable.
L'architecture MoE prouve sa valeur. Le mixture-of-experts n'active qu'une fraction des paramètres à chaque requête. C'est ce qui permet à Moondream 3.0 de rivaliser avec des modèles 50 à 100 fois plus lourds. Cette approche — déjà utilisée par Mistral et d'autres — confirme que l'avenir de l'IA n'est pas forcément dans le gigantisme.