Qu'est-ce qu'un world model en robotique ?

Un world model est un système d'IA qui apprend à prédire les conséquences d'actions dans un environnement physique. DreamDojo le fait en « rêvant » les résultats en pixels, sans moteur physique traditionnel.

Pourquoi utiliser de la vidéo humaine plutôt que des données robot ?

Les datasets robotiques sont limités à quelques centaines d'heures. La vidéo humaine est abondante et couvre une immense diversité de tâches. DreamDojo utilise 44 711 heures de vidéo, soit 96 fois plus de compétences que les alternatives.

DreamDojo peut-il être utilisé avec n'importe quel robot ?

Oui. Le modèle est d'abord pré-entraîné sur de la vidéo humaine, puis post-entraîné sur les données d'un robot spécifique. Nvidia a publié tout le code et les poids nécessaires pour cette adaptation.

Quelle est la différence entre DreamDojo et Cosmos ?

Cosmos est le framework de world models généraliste de Nvidia. DreamDojo s'appuie sur Cosmos mais se spécialise dans la robotique, avec un entraînement sur des vidéos humaines et un système d'actions latentes pour la manipulation.

Nvidia DreamDojo : le world model robotique open source

20 févr. 2026 2 min de lecture Paul Forcadel

Un robot qui « rêve » avant d'agir

Nvidia a publié DreamDojo, un world model open source qui permet aux robots d'apprendre la physique du monde réel en regardant des vidéos humaines. Contrairement aux simulateurs physiques traditionnels, DreamDojo « rêve » les résultats des actions directement en pixels, sans aucune donnée robot au départ.

Le projet est piloté par le GEAR Lab de Nvidia, dirigé par Jim Fan, qui qualifie l'approche de « Simulation 2.0 ».

44 000 heures de vidéo humaine

DreamDojo est pré-entraîné sur DreamDojo-HV, le plus grand dataset de vidéos humaines égocentriques à ce jour : 44 711 heures de footage couvrant 6 015 tâches uniques dans 9 869 scènes. C'est 15 fois plus long, 96 fois plus de compétences et 2 000 fois plus de scènes que les datasets robotiques existants.

Un Transformer de 700 millions de paramètres extrait des « actions latentes » — des représentations unifiées des changements d'état captés entre les images — ce qui résout le problème des vidéos sans annotations d'actions.

Des performances proches du réel

DreamDojo tourne à 10,81 FPS en temps réel et maintient des simulations stables pendant 60 secondes (600 frames). Les taux de succès simulés présentent une corrélation de Pearson de 0,995 avec les résultats en conditions réelles. Sur des tâches de manipulation comme l'emballage de fruits, le modèle améliore le taux de succès de 17 %.

Deux variantes sont disponibles : 2 milliards et 14 milliards de paramètres, toutes deux pré-entraînées sur 256 GPU H100.

Tout est ouvert

Nvidia a publié l'ensemble des poids, du code d'entraînement, des datasets et des benchmarks d'évaluation. Le modèle peut être post-entraîné sur les données de n'importe quel robot spécifique, ce qui en fait une base généraliste pour la robotique. DreamDojo s'appuie sur Cosmos, l'autre framework open source de world models de Nvidia.