Nova pesquisa da Meta e colaboradores. Este é um bom artigo que mostra o que é possível com modelos de mundo adequados. Os modelos de mundo precisam de ações para prever consequências. A abordagem padrão hoje requer dados de ação rotulados, que são caros de obter e limitados a domínios restritos, como jogos de vídeo ou manipulação robótica. Mas a vasta maioria dos dados de vídeo online não tem rótulos de ação. Esta nova pesquisa aborda o aprendizado de modelos de mundo de ação latente diretamente de vídeos do mundo real, expandindo além dos ambientes controlados de trabalhos anteriores para capturar a plena diversidade de ações do mundo real. O desafio é significativo. Vídeos do mundo real contêm ações muito além de simples navegação ou manipulação: pessoas entrando em quadros, objetos aparecendo e desaparecendo, dançarinos se movendo, dedos formando acordes de guitarra. Também não há uma incorporação consistente entre os vídeos, ao contrário dos conjuntos de dados de robótica, onde o mesmo braço aparece ao longo de todo o material. Então, como os autores abordam isso? Ações latentes contínuas, mas restritas, usando regularização esparsa ou ruidosa, capturam efetivamente essa complexidade de ação. A quantização discreta, a abordagem comum em trabalhos anteriores, tem dificuldades para se adaptar. Sem uma incorporação compartilhada, o modelo aprende transformações localizadas espacialmente e relativas à câmera. Os resultados demonstram uma transferência genuína de ação. O movimento de uma pessoa caminhando pode ser aplicado a uma bola voadora. Ações como "alguém entrando no quadro" transferem-se entre vídeos completamente diferentes. Ao treinar um pequeno controlador para mapear ações conhecidas para ações latentes, o modelo de mundo treinado puramente em vídeos naturais pode resolver tarefas de manipulação e navegação robótica com desempenho próximo ao de modelos treinados em dados rotulados de ação específicos de domínio. Espaços de ação latentes aprendidos a partir de vídeos da internet não rotulados podem servir como uma interface universal para planejamento, removendo o gargalo da anotação de ações. Artigo: Aprenda a construir agentes de IA eficazes em nossa academia: