Anunțăm DreamDojo: modelul nostru open-source, interactiv, care preia comenzile motoarelor roboților și generează viitorul în pixeli. Fără motor, fără mesh-uri, fără dinamici create manual. Este Simulation 2.0. E timpul ca robotica să ia lecția amară. Învățarea roboților în lumea reală este limitată de timp, uzură, siguranță și resetări. Dacă vrem ca AI-ul fizic să se miște cu viteză de pre-antrenament, avem nevoie de un simulator care să se adapteze la scara de pre-antrenament cu cât mai puțină inginerie umană posibil. Principalele noastre perspective: (1) videoclipurile egocentrice umane reprezintă o sursă scalabilă de fizică la persoana întâi; (2) acțiunile latente le fac "lizibile de robot" pe diferite tipuri de hardware; (3) Inferența în timp real deblochează teleop live, evaluarea politicilor și planificarea în timpul testului *înăuntru* unui vis. Ne antrenăm în prealabil cu 44.000 de ore de videoclipuri umane: ieftine, abundente și colecționate fără niciun robot implicat. Oamenii au explorat deja combinatorica: prindem, turnăm, pliăm, asamblăm, eșuăm, reîncercăm — prin scene aglomerate, puncte de vedere schimbătoare, lumină schimbătoare și lanțuri de sarcini de o oră — la o scară pe care nicio flotă de roboți nu o poate egala. Piesa lipsă: aceste videoclipuri nu au etichete de acțiune. Așadar, introducem acțiuni latente: o reprezentare unificată dedusă direct din videoclipuri care surprinde "ce s-a schimbat între stările lumii" fără a cunoaște hardware-ul de bază. Acest lucru ne permite să ne antrenăm pe orice videoclip la persoana întâi ca și cum ar avea comenzi motorii atașate. Ca urmare, DreamDojo generalizează zero-shot-ul la obiecte și medii care nu au fost niciodată văzute în niciun set de antrenament al roboților, pentru că oamenii le-au văzut primii. Apoi, facem post-training pe fiecare robot pentru a se potrivi hardware-ului său specific. Gândește-te la asta ca la o separare a "modului în care arată și se comportă lumea" de "modul în care acționează acest robot anume". Modelul de bază urmează regulile fizice generale, apoi "se fixează" pe mecanicile unice ale robotului. Este cam ca și cum ai încărca un personaj nou și resurse de scenă în Unreal Engine, dar făcut prin gradient descent și generalizează mult dincolo de setul de date post-antrenament. Un simulator de lume este util doar dacă rulează suficient de repede pentru a închide ciclul. Antrenăm o versiune în timp real a DreamDojo care rulează la 10 FPS, stabilă pentru peste un minut de implementare continuă. Aceasta deblochează posibilități interesante: - Teleoperație live *înăuntru* un vis. Conectează un controller VR, transmite acțiuni în DreamDojo și teleoperează un robot virtual în timp real. Noi facem o demonstrație pe Unitree G1 cu o cască PICO și o RTX 5090. - Evaluarea politicilor. Poți compara un punct de control al politicii în DreamDojo în loc de lumea reală. Ratele simulate de succes corelează puternic cu rezultatele din lumea reală – suficient de precise pentru a clasifica punctele de control fără a arde niciun motor. - Planificare bazată pe modele. Analizează mai multe propuneri de acțiune → simulează-le pe toate în paralel → alege cel mai bun viitor. Obține +17% succes în lumea reală din fabrică la o sarcină de ambalare a fructelor. Oferim open source la totul!! Greutăți, cod, set de date post-antrenament, set de evaluare și whitepaper cu o mulțime de detalii de reprodus. DreamDojo se bazează pe NVIDIA Cosmos, care este și el open-weight. 2026 este anul World Models pentru AI fizic. Vrem să construiești împreună cu noi. Scalare plăcută! Linkuri în firul de discuție: