Anunciando o DreamDojo: nosso modelo de mundo interativo e de código aberto que pega os controles de motor de robô e gera o futuro em pixels. Sem motor, sem malhas, sem dinâmicas criadas manualmente. É a Simulação 2.0. É hora da robótica aprender a lição amarga. O aprendizado de robôs no mundo real é limitado pelo tempo, desgaste, segurança e reinicializações. Se quisermos que a IA Física se mova na velocidade de pré-treinamento, precisamos de um simulador que se adapte à escala de pré-treinamento com o mínimo de engenharia humana possível. Nossas principais percepções: (1) vídeos egocêntricos humanos são uma fonte escalável de física em primeira pessoa; (2) ações latentes tornam-nos "legíveis por robôs" em diferentes hardwares; (3) a inferência em tempo real desbloqueia teleoperação ao vivo, avaliação de políticas e planejamento em tempo de teste *dentro* de um sonho. Nós pré-treinamos com 44 mil horas de vídeos humanos: baratos, abundantes e coletados sem robô no circuito. Os humanos já exploraram as combinações: nós agarramos, despejamos, dobramos, montamos, falhamos, tentamos novamente—através de cenas desordenadas, pontos de vista em mudança, luz variável e cadeias de tarefas de uma hora—em uma escala que nenhuma frota de robôs poderia igualar. A peça que falta: esses vídeos não têm rótulos de ação. Então, introduzimos ações latentes: uma representação unificada inferida diretamente dos vídeos que captura "o que mudou entre os estados do mundo" sem saber o hardware subjacente. Isso nos permite treinar em qualquer vídeo em primeira pessoa como se viesse com comandos de motor anexados. Como resultado, o DreamDojo generaliza zero-shot para objetos e ambientes nunca vistos em nenhum conjunto de treinamento de robôs, porque os humanos os viram primeiro. Em seguida, fazemos um pós-treinamento em cada robô para se ajustar ao seu hardware específico. Pense nisso como separar "como o mundo parece e se comporta" de "como este robô específico atua." O modelo base segue as regras físicas gerais, então "se encaixa" na mecânica única do robô. É como carregar um novo personagem e ativos de cena no Unreal Engine, mas feito através de descida de gradiente e generaliza muito além do conjunto de dados de pós-treinamento. Um simulador de mundo só é útil se funcionar rápido o suficiente para fechar o ciclo. Treinamos uma versão em tempo real do DreamDojo que roda a 10 FPS, estável por mais de um minuto de rollout contínuo. Isso desbloqueia possibilidades empolgantes: - Teleoperação ao vivo *dentro* de um sonho. Conecte um controlador VR, transmita ações para o DreamDojo e teleopere um robô virtual em tempo real. Demonstraremos isso no Unitree G1 com um headset PICO e uma RTX 5090. - Avaliação de políticas. Você pode avaliar um ponto de verificação de política no DreamDojo em vez do mundo real. As taxas de sucesso simuladas correlacionam fortemente com os resultados do mundo real - precisas o suficiente para classificar pontos de verificação sem queimar um único motor. - Planejamento baseado em modelo. Amostre várias propostas de ação → simule todas em paralelo → escolha o melhor futuro. Ganhos de +17% de sucesso no mundo real logo de cara em uma tarefa de embalagem de frutas. Nós open-source tudo!! Pesos, código, conjunto de dados de pós-treinamento, conjunto de avaliação e whitepaper com muitos detalhes para reproduzir. O DreamDojo é baseado no NVIDIA Cosmos, que também é de código aberto. 2026 é o ano dos Modelos de Mundo para IA física. Queremos que você construa conosco. Feliz escalonamento! Links no tópico: