Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AMI Labs щойно зібрала $1.03B. World Labs залучила 1 мільярд доларів за кілька тижнів до того. Обидва роблять ставку на світові моделі.
Але майже ніхто не має на увазі одне й те саме під цим терміном.
Ось на мою думку, п'ять категорій світових моделей.
---
1. Спільна прогностична архітектура вбудовування (JEPA)
Представники: AMI Labs (@ylecun), V-JEPA 2
Головна ідея тут полягає в тому, що реконструкція пікселів сама по собі є неефективною метою для вивчення абстракцій, необхідних для фізичного розуміння. Лекун говорить це вже багато років — передбачати кожен піксель майбутнього неможливо в будь-якому стохастичному середовищі. JEPA обходить це, прогнозуючи у вивченому латентному просторі.
Зокрема, JEPA навчає енкодер, який відображає відеопатчі з представленнями, а потім предиктор, який прогнозує замасковані області в цьому просторі представлень, а не в піксельному просторі.
Це дуже важливе дизайнерське рішення.
Генеративна модель, яка реконструює пікселі, змушена враховувати низькорівневі деталі (точна текстура, освітлення, положення листка), які за своєю суттю є непередбачуваними. Працюючи з абстрактними вкладеннями, JEPA може зафіксувати «м'яч впаде зі столу» без необхідності галюцинувати кожен кадр його падіння.
V-JEPA 2 — найчіткіший масштабний доказ на сьогодні. Це модель з параметром 1,2B, попередньо навчена на 1M+ годинах відео за допомогою самоконтрольованого маскованого прогнозування — без міток, без тексту. На другому етапі навчання стає цікаво: достатньо 62 годин даних роботів із набору даних DROID для створення моделі світу, орієнтованої на дії, яка підтримує планування з нульовим вистрілом. Робот генерує послідовності дій-кандидатів, прокочує їх вперед по світовій моделі і обирає ту, чий прогнозований результат найкраще відповідає зображенню мети. Це працює з об'єктами та середовищем, які ніколи не були помічені під час тренувань.
Ефективність даних — це справжній технічний заголовок. 62 години — це майже нічого. Вона свідчить, що самоконтрольоване попереднє навчання на різноманітному відео може заповнити достатньо фізичних попередніх знань, щоб у майбутньому було потрібно дуже мало даних, специфічних для галузі. Це вагомий аргумент на користь дизайну JEPA — якщо ваші представлення достатньо якісні, вам не потрібно перебирати кожне завдання з нуля.
AMI Labs — це зусилля Лекуна вивести це за межі досліджень. Вони насамперед орієнтовані на охорону здоров'я та робототехніку, що логічно, враховуючи сильну силу JEPA у фізичному мисленні з обмеженими даними. Але це довгострокова ставка — їхній генеральний директор відкрито заявляв, що комерційні продукти можуть з'явитися на кілька років.
---
2. Просторовий інтелект (3D світові моделі)
Представник: World Labs (@drfeifei)
...
Найкращі
Рейтинг
Вибране
