Нове дослідження від Meta та її співробітників. Це гарна стаття, яка показує, що можливо з правильними моделями світу. Світові моделі потребують дій для прогнозування наслідків. Сьогодні стандартний підхід вимагає позначених даних про дії, які є дорогими у отриманні і обмежені вузькими доменами, такими як відеоігри чи роботизовані маніпуляції. Але переважна більшість відеоданих онлайн взагалі не мають жодних позначок дій. Це нове дослідження охоплює вивчення моделей прихованого світу дій безпосередньо з відео в дикій природі, виходячи за межі контрольованих налаштувань попередніх робіт, щоб охопити повне різноманіття реальних дій. Виклик є значним. In-the-wild відео містять дії, що виходять далеко за межі простої навігації чи маніпуляцій: люди входять у кадри, об'єкти з'являються і зникають, танцюристи рухаються, пальці формують гітарні акорди. Також немає єдиного втілення у відео, на відміну від наборів даних робототехніки, де одна й та сама рука з'являється всюди. Отже, як автори це розглядають? Безперервні, але обмежені латентні дії, що використовують розріджену або шумну регуляризацію, ефективно відображають цю складність дій. Дискретна квантизація, поширений підхід у попередніх роботах, важко адаптується. Без спільного втілення модель навчається просторово локалізованим, камерно-відносним перетворенням. Результати демонструють справжню передачу дії. Рух людини, що йде, можна застосувати до летючої кулі. Дії, як-от «хтось входить у кадр», переносяться між абсолютно різними відео. Навчаючи невеликий контролер відтворювати відомі дії з латентними, світова модель, навчена виключно на натуральних відео, може вирішувати роботизовані маніпуляції та навігацію з продуктивністю, близькою до моделей, навчених на доменно-специфічних даних, позначених діями. Латентні простори дій, отримані з немаркованих інтернет-відео, можуть слугувати універсальним інтерфейсом для планування, усуваючи вузьке місце анотації дій. Стаття: Навчіться створювати ефективних агентів ШІ в нашій академії: