Un robot qui « rêve » avant d'agir
Nvidia a publié DreamDojo, un world model open source qui permet aux robots d'apprendre la physique du monde réel en regardant des vidéos humaines. Contrairement aux simulateurs physiques traditionnels, DreamDojo « rêve » les résultats des actions directement en pixels, sans aucune donnée robot au départ.
Le projet est piloté par le GEAR Lab de Nvidia, dirigé par Jim Fan, qui qualifie l'approche de « Simulation 2.0 ».
44 000 heures de vidéo humaine
DreamDojo est pré-entraîné sur DreamDojo-HV, le plus grand dataset de vidéos humaines égocentriques à ce jour : 44 711 heures de footage couvrant 6 015 tâches uniques dans 9 869 scènes. C'est 15 fois plus long, 96 fois plus de compétences et 2 000 fois plus de scènes que les datasets robotiques existants.
Un Transformer de 700 millions de paramètres extrait des « actions latentes » — des représentations unifiées des changements d'état captés entre les images — ce qui résout le problème des vidéos sans annotations d'actions.
Des performances proches du réel
DreamDojo tourne à 10,81 FPS en temps réel et maintient des simulations stables pendant 60 secondes (600 frames). Les taux de succès simulés présentent une corrélation de Pearson de 0,995 avec les résultats en conditions réelles. Sur des tâches de manipulation comme l'emballage de fruits, le modèle améliore le taux de succès de 17 %.
Deux variantes sont disponibles : 2 milliards et 14 milliards de paramètres, toutes deux pré-entraînées sur 256 GPU H100.
Tout est ouvert
Nvidia a publié l'ensemble des poids, du code d'entraînement, des datasets et des benchmarks d'évaluation. Le modèle peut être post-entraîné sur les données de n'importe quel robot spécifique, ce qui en fait une base généraliste pour la robotique. DreamDojo s'appuie sur Cosmos, l'autre framework open source de world models de Nvidia.