AMI Labs щойно зібрала $1.03B. World Labs залучила 1 мільярд доларів за кілька тижнів до того. Обидва роблять ставку на світові моделі. Але майже ніхто не має на увазі одне й те саме під цим терміном. Ось на мою думку, п'ять категорій світових моделей. --- 1. Спільна прогностична архітектура вбудовування (JEPA) Представники: AMI Labs (@ylecun), V-JEPA 2 Головна ідея тут полягає в тому, що реконструкція пікселів сама по собі є неефективною метою для вивчення абстракцій, необхідних для фізичного розуміння. Лекун говорить це вже багато років — передбачати кожен піксель майбутнього неможливо в будь-якому стохастичному середовищі. JEPA обходить це, прогнозуючи у вивченому латентному просторі. Зокрема, JEPA навчає енкодер, який відображає відеопатчі з представленнями, а потім предиктор, який прогнозує замасковані області в цьому просторі представлень, а не в піксельному просторі. Це дуже важливе дизайнерське рішення. Генеративна модель, яка реконструює пікселі, змушена враховувати низькорівневі деталі (точна текстура, освітлення, положення листка), які за своєю суттю є непередбачуваними. Працюючи з абстрактними вкладеннями, JEPA може зафіксувати «м'яч впаде зі столу» без необхідності галюцинувати кожен кадр його падіння. V-JEPA 2 — найчіткіший масштабний доказ на сьогодні. Це модель з параметром 1,2B, попередньо навчена на 1M+ годинах відео за допомогою самоконтрольованого маскованого прогнозування — без міток, без тексту. На другому етапі навчання стає цікаво: достатньо 62 годин даних роботів із набору даних DROID для створення моделі світу, орієнтованої на дії, яка підтримує планування з нульовим вистрілом. Робот генерує послідовності дій-кандидатів, прокочує їх вперед по світовій моделі і обирає ту, чий прогнозований результат найкраще відповідає зображенню мети. Це працює з об'єктами та середовищем, які ніколи не були помічені під час тренувань. Ефективність даних — це справжній технічний заголовок. 62 години — це майже нічого. Вона свідчить, що самоконтрольоване попереднє навчання на різноманітному відео може заповнити достатньо фізичних попередніх знань, щоб у майбутньому було потрібно дуже мало даних, специфічних для галузі. Це вагомий аргумент на користь дизайну JEPA — якщо ваші представлення достатньо якісні, вам не потрібно перебирати кожне завдання з нуля. AMI Labs — це зусилля Лекуна вивести це за межі досліджень. Вони насамперед орієнтовані на охорону здоров'я та робототехніку, що логічно, враховуючи сильну силу JEPA у фізичному мисленні з обмеженими даними. Але це довгострокова ставка — їхній генеральний директор відкрито заявляв, що комерційні продукти можуть з'явитися на кілька років. --- 2. Просторовий інтелект (3D світові моделі) Представник: World Labs (@drfeifei) ...