Annunciamo DreamDojo: il nostro modello di mondo interattivo open-source che prende i controlli motori dei robot e genera il futuro in pixel. Niente motore, niente mesh, niente dinamiche scritte a mano. È la Simulazione 2.0. È tempo che la robotica prenda la pillola amara della lezione. L'apprendimento dei robot nel mondo reale è bloccato da tempo, usura, sicurezza e reset. Se vogliamo che l'AI Fisica si muova alla velocità del pre-addestramento, abbiamo bisogno di un simulatore che si adatti alla scala del pre-addestramento con il minor ingegneria umana possibile. Le nostre intuizioni chiave: (1) i video egocentrici umani sono una fonte scalabile di fisica in prima persona; (2) le azioni latenti li rendono "leggibili dai robot" su hardware diversi; (3) l'inferenza in tempo reale sblocca il teleoperazione dal vivo, la valutazione delle politiche e la pianificazione al momento del test *all'interno* di un sogno. Pre-addestriamo su 44K ore di video umani: economici, abbondanti e raccolti senza alcun robot nel loop. Gli esseri umani hanno già esplorato le combinazioni: afferriamo, versiamo, pieghiamo, assembliamo, falliamo, riproviamo—attraverso scene ingombre, punti di vista in cambiamento, luce variabile e catene di compiti di un'ora—su una scala che nessuna flotta di robot potrebbe eguagliare. Il pezzo mancante: questi video non hanno etichette di azione. Quindi introduciamo azioni latenti: una rappresentazione unificata inferita direttamente dai video che cattura "cosa è cambiato tra gli stati del mondo" senza conoscere l'hardware sottostante. Questo ci consente di addestrarci su qualsiasi video in prima persona come se fosse fornito con comandi motori allegati. Di conseguenza, DreamDojo generalizza zero-shot a oggetti e ambienti mai visti in alcun set di addestramento per robot, perché gli esseri umani li hanno visti per primi. Successivamente, post-addestriamo su ciascun robot per adattarlo al suo hardware specifico. Pensalo come separare "come appare e si comporta il mondo" da "come questo particolare robot agisce." Il modello di base segue le regole fisiche generali, poi "si adatta" alla meccanica unica del robot. È un po' come caricare un nuovo personaggio e asset di scena in Unreal Engine, ma fatto attraverso la discesa del gradiente e generalizza molto oltre il dataset di post-addestramento. Un simulatore di mondi è utile solo se funziona abbastanza velocemente da chiudere il ciclo. Addestriamo una versione in tempo reale di DreamDojo che funziona a 10 FPS, stabile per oltre un minuto di rollout continuo. Questo sblocca possibilità entusiasmanti: - Teleoperazione dal vivo *all'interno* di un sogno. Collega un controller VR, trasmetti azioni in DreamDojo e teleopera un robot virtuale in tempo reale. Dimostriamo questo su Unitree G1 con un visore PICO e una RTX 5090. - Valutazione delle politiche. Puoi valutare un checkpoint di politica in DreamDojo invece che nel mondo reale. I tassi di successo simulati correlano fortemente con i risultati del mondo reale - abbastanza accurati da classificare i checkpoint senza bruciare un singolo motore. - Pianificazione basata su modelli. Campiona più proposte di azione → simula tutte in parallelo → scegli il miglior futuro. Guadagni +17% di successo nel mondo reale subito su un compito di imballaggio di frutta. Open-sourceiamo tutto!! Pesi, codice, dataset di post-addestramento, set di valutazione e whitepaper con tonnellate di dettagli per riprodurre. DreamDojo è basato su NVIDIA Cosmos, che è open-weight anche. Il 2026 è l'anno dei Modelli di Mondo per l'AI fisica. Vogliamo che tu costruisca con noi. Buona scalabilità! Link nel thread: