Новое исследование от Meta и партнеров. Это хорошая работа, показывающая, что возможно с правильными мировыми моделями. Мировые модели нуждаются в действиях для предсказания последствий. Современный подход требует размеченных данных о действиях, что дорого и ограничено узкими областями, такими как видеоигры или манипуляции с роботами. Но подавляющее большинство видеоданных в интернете вообще не имеет меток действий. Это новое исследование решает задачу обучения скрытым мировым моделям действий непосредственно из видео, снятых в естественных условиях, расширяя рамки контролируемых условий предыдущих работ, чтобы захватить полное разнообразие реальных действий. Задача значительная. Видео, снятые в естественных условиях, содержат действия, выходящие далеко за пределы простой навигации или манипуляции: люди, входящие в кадр, объекты, появляющиеся и исчезающие, танцоры, движущиеся, пальцы, формирующие аккорды на гитаре. Также нет единой формы воплощения в разных видео, в отличие от наборов данных по робототехнике, где одна и та же рука появляется на протяжении всего времени. Так как же авторы решают эту проблему? Непрерывные, но ограниченные скрытые действия, используя разреженную или шумную регуляризацию, эффективно захватывают эту сложность действий. Дискретная квантизация, распространенный подход в предыдущих работах, испытывает трудности с адаптацией. Без общего воплощения модель обучается пространственно локализованным, относительным к камере трансформациям. Результаты демонстрируют подлинный перенос действий. Движение идущего человека может быть применено к летящему мячу. Действия, такие как "кто-то входит в кадр", переносятся между совершенно разными видео. Обучив небольшой контроллер для сопоставления известных действий с скрытыми, мировая модель, обученная исключительно на естественных видео, может решать задачи манипуляции и навигации с производительностью, близкой к моделям, обученным на данных с метками действий, специфичных для области. Скрытые пространства действий, изученные на немаркированных интернет-видео, могут служить универсальным интерфейсом для планирования, устраняя узкое место аннотирования действий. Статья: Научитесь создавать эффективные AI-агенты в нашей академии: