Annonce de DreamDojo : notre modèle de monde interactif open-source qui prend les contrôles moteurs des robots et génère l'avenir en pixels. Pas de moteur, pas de maillages, pas de dynamiques écrites à la main. C'est la Simulation 2.0. Il est temps que la robotique prenne la pilule amère de la leçon. L'apprentissage des robots dans le monde réel est limité par le temps, l'usure, la sécurité et les réinitialisations. Si nous voulons que l'IA Physique avance à la vitesse de pré-entraînement, nous avons besoin d'un simulateur qui s'adapte à l'échelle de pré-entraînement avec le moins d'ingénierie humaine possible. Nos principales idées : (1) les vidéos humaines égocentriques sont une source évolutive de physique à la première personne ; (2) les actions latentes les rendent "lisibles par les robots" sur différents matériels ; (3) l'inférence en temps réel débloque la téléopération en direct, l'évaluation des politiques et la planification au moment du test *dans* un rêve. Nous pré-entraînons sur 44K heures de vidéos humaines : bon marché, abondantes et collectées sans aucun robot dans la boucle. Les humains ont déjà exploré les combinaisons : nous saisissons, versons, plions, assemblons, échouons, réessayons—à travers des scènes encombrées, des points de vue changeants, une lumière variable et des chaînes de tâches d'une heure—à une échelle qu'aucune flotte de robots ne pourrait égaler. La pièce manquante : ces vidéos n'ont pas d'étiquettes d'action. Nous introduisons donc des actions latentes : une représentation unifiée inférée directement des vidéos qui capture "ce qui a changé entre les états du monde" sans connaître le matériel sous-jacent. Cela nous permet de nous entraîner sur n'importe quelle vidéo à la première personne comme si elle était accompagnée de commandes moteur. En conséquence, DreamDojo généralise en zéro-shot à des objets et des environnements jamais vus dans aucun ensemble d'entraînement de robots, car les humains les ont vus en premier. Ensuite, nous post-entraînons chaque robot pour l'adapter à son matériel spécifique. Pensez-y comme à la séparation de "comment le monde apparaît et se comporte" de "comment ce robot particulier s'active." Le modèle de base suit les règles physiques générales, puis "s'adapte" à la mécanique unique du robot. C'est un peu comme charger un nouveau personnage et des actifs de scène dans Unreal Engine, mais fait par descente de gradient et généralise bien au-delà de l'ensemble de données de post-entraînement. Un simulateur de monde n'est utile que s'il fonctionne assez rapidement pour fermer la boucle. Nous entraînons une version en temps réel de DreamDojo qui fonctionne à 10 FPS, stable pendant plus d'une minute de déploiement continu. Cela débloque des possibilités passionnantes : - Téléopération en direct *dans* un rêve. Connectez un contrôleur VR, diffusez des actions dans DreamDojo et téléopérez un robot virtuel en temps réel. Nous le démontrons sur l'Unitree G1 avec un casque PICO et une RTX 5090. - Évaluation des politiques. Vous pouvez évaluer un point de contrôle de politique dans DreamDojo au lieu du monde réel. Les taux de succès simulés sont fortement corrélés avec les résultats du monde réel - suffisamment précis pour classer les points de contrôle sans brûler un seul moteur. - Planification basée sur des modèles. Échantillonnez plusieurs propositions d'action → simulez-les toutes en parallèle → choisissez le meilleur avenir. Gains de +17 % de succès dans le monde réel dès le départ sur une tâche de conditionnement de fruits. Nous open-source tout !! Poids, code, ensemble de données de post-entraînement, ensemble d'évaluation et livre blanc avec des tonnes de détails pour reproduire. DreamDojo est basé sur NVIDIA Cosmos, qui est également open-weight. 2026 est l'année des Modèles de Monde pour l'IA physique. Nous voulons que vous construisiez avec nous. Bon scaling ! Liens dans le fil :