Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nova pesquisa da Meta e colaboradores.
Este é um bom artigo que mostra o que é possível com modelos de mundo adequados.
Os modelos de mundo precisam de ações para prever consequências. A abordagem padrão hoje requer dados de ação rotulados, que são caros de obter e limitados a domínios restritos, como jogos de vídeo ou manipulação robótica.
Mas a vasta maioria dos dados de vídeo online não tem rótulos de ação.
Esta nova pesquisa aborda o aprendizado de modelos de mundo de ação latente diretamente de vídeos do mundo real, expandindo além dos ambientes controlados de trabalhos anteriores para capturar a plena diversidade de ações do mundo real.
O desafio é significativo. Vídeos do mundo real contêm ações muito além de simples navegação ou manipulação: pessoas entrando em quadros, objetos aparecendo e desaparecendo, dançarinos se movendo, dedos formando acordes de guitarra. Também não há uma incorporação consistente entre os vídeos, ao contrário dos conjuntos de dados de robótica, onde o mesmo braço aparece ao longo de todo o material.
Então, como os autores abordam isso?
Ações latentes contínuas, mas restritas, usando regularização esparsa ou ruidosa, capturam efetivamente essa complexidade de ação. A quantização discreta, a abordagem comum em trabalhos anteriores, tem dificuldades para se adaptar. Sem uma incorporação compartilhada, o modelo aprende transformações localizadas espacialmente e relativas à câmera.
Os resultados demonstram uma transferência genuína de ação.
O movimento de uma pessoa caminhando pode ser aplicado a uma bola voadora. Ações como "alguém entrando no quadro" transferem-se entre vídeos completamente diferentes.
Ao treinar um pequeno controlador para mapear ações conhecidas para ações latentes, o modelo de mundo treinado puramente em vídeos naturais pode resolver tarefas de manipulação e navegação robótica com desempenho próximo ao de modelos treinados em dados rotulados de ação específicos de domínio.
Espaços de ação latentes aprendidos a partir de vídeos da internet não rotulados podem servir como uma interface universal para planejamento, removendo o gargalo da anotação de ações.
Artigo:
Aprenda a construir agentes de IA eficazes em nossa academia:

Top
Classificação
Favoritos
