Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Нове дослідження від Meta та її співробітників.
Це гарна стаття, яка показує, що можливо з правильними моделями світу.
Світові моделі потребують дій для прогнозування наслідків. Сьогодні стандартний підхід вимагає позначених даних про дії, які є дорогими у отриманні і обмежені вузькими доменами, такими як відеоігри чи роботизовані маніпуляції.
Але переважна більшість відеоданих онлайн взагалі не мають жодних позначок дій.
Це нове дослідження охоплює вивчення моделей прихованого світу дій безпосередньо з відео в дикій природі, виходячи за межі контрольованих налаштувань попередніх робіт, щоб охопити повне різноманіття реальних дій.
Виклик є значним. In-the-wild відео містять дії, що виходять далеко за межі простої навігації чи маніпуляцій: люди входять у кадри, об'єкти з'являються і зникають, танцюристи рухаються, пальці формують гітарні акорди. Також немає єдиного втілення у відео, на відміну від наборів даних робототехніки, де одна й та сама рука з'являється всюди.
Отже, як автори це розглядають?
Безперервні, але обмежені латентні дії, що використовують розріджену або шумну регуляризацію, ефективно відображають цю складність дій. Дискретна квантизація, поширений підхід у попередніх роботах, важко адаптується. Без спільного втілення модель навчається просторово локалізованим, камерно-відносним перетворенням.
Результати демонструють справжню передачу дії.
Рух людини, що йде, можна застосувати до летючої кулі. Дії, як-от «хтось входить у кадр», переносяться між абсолютно різними відео.
Навчаючи невеликий контролер відтворювати відомі дії з латентними, світова модель, навчена виключно на натуральних відео, може вирішувати роботизовані маніпуляції та навігацію з продуктивністю, близькою до моделей, навчених на доменно-специфічних даних, позначених діями.
Латентні простори дій, отримані з немаркованих інтернет-відео, можуть слугувати універсальним інтерфейсом для планування, усуваючи вузьке місце анотації дій.
Стаття:
Навчіться створювати ефективних агентів ШІ в нашій академії:

Найкращі
Рейтинг
Вибране
