Nueva investigación de Meta y colaboradores. Este es un buen artículo que muestra lo que es posible con modelos del mundo adecuados. Los modelos mundiales necesitan acciones para predecir consecuencias. El enfoque por defecto hoy requiere datos de acciones etiquetados, que son costosos de obtener y están limitados a dominios estrechos como los videojuegos o la manipulación robótica. Pero la gran mayoría de los datos de vídeo en línea no tienen ninguna etiqueta de acción. Esta nueva investigación aborda el aprendizaje de modelos latentes de mundos de acción directamente a partir de vídeos en la naturaleza, ampliando más allá de los entornos controlados de trabajos anteriores para capturar toda la diversidad de acciones en el mundo real. El desafío es considerable. Los vídeos en la naturaleza contienen acciones mucho más allá de la simple navegación o manipulación: personas entrando en los frames, objetos apareciendo y desapareciendo, bailarines moviéndose, dedos formando acordes de guitarra. Tampoco hay una incorporación consistente en vídeos, a diferencia de los conjuntos de datos de robótica, donde el mismo brazo aparece a lo largo de todo el vídeo. ¿Cómo abordan esto los autores? Las acciones latentes continuas pero restringidas, utilizando regularización escasa o ruidosa, capturan eficazmente esta complejidad de acción. La cuantización discreta, el enfoque común en trabajos anteriores, tiene dificultades para adaptarse. Sin una encarnación compartida, el modelo aprende transformaciones espacialmente localizadas y relativas a la cámara. Los resultados demuestran una transferencia genuina de la acción. El movimiento de una persona que camina puede aplicarse a una bola voladora. Acciones como "alguien entrando en el fotograma" se transfieren a vídeos completamente diferentes. Al entrenar un pequeño controlador para mapear acciones conocidas a las latentes, el modelo mundial entrenado puramente en vídeos naturales puede resolver tareas de manipulación y navegación robótica con un rendimiento cercano al de los modelos entrenados con datos específicos de dominio y etiquetados por acciones. Los espacios de acción latentes aprendidos de vídeos de internet sin etiqueta pueden servir como una interfaz universal para la planificación, eliminando el cuello de botella de la anotación de acciones. Papel: Aprende a crear agentes de IA efectivos en nuestra academia: