#PaperADay 10 LeJEPA: Доведене та масштабоване самоконтрольоване навчання без евристик Коментарі до #PaperADay 3 рекомендували цю статтю як найсучаснішу JEPA-статтю, і вона справді виглядає набагато краще! Вони визнають, що більшість попередніх досліджень JEPA є тимчасовими і сповненими евристик, але тут висувають сильні теоретичні заяви про оптимальність і надають докази (які я не читав). Перше твердження полягає в тому, що ізотропний гаусів є єдиним оптимальним розподілом вкладення як для лінійного, так і для нелінійного зондування, що мінімізує найгірший ризик у наступних завданнях. Я б прийняв це вірно, просто сказавши «звучить добре», але вони описують це з деталями та прикладами. Насправді отримати ізотропний гаусів у великих розмірах легше сказати, ніж зробити. Вони подають ескізну ізотропну гаусову регуляризацію (SIGReg) як добре поведену функцію втрат для досягнення цього після аналізу низки різних статистичних тестів і стверджують, що вона долає прокляття розмірності завдяки лінійній масштабованості. Остаточна втрата — це просто фактор змішування, щоб зважити втрату прогнозу JEPA проти втрати ізотропії SIGReg. Це єдиний налаштовуваний гіперпараметр для LeJEPA. Незважаючи на P у JEPA, тут не використовують предикторні мережі, вони просто безпосередньо порівнюють вкладення перегляду для втрати JEPA. Предикторні мережі все ще можуть бути корисними для відеопослідовностей, особливо якщо вони оснащені інформацією про дії для агентів / роботів. Кожне навчальне зображення доповнюється для отримання 2 глобальних і 6 локальних зображень з різними просторовими масштабами, але з однаковим набором кольорових і геометричних трансформацій. Втрата становить середній MSE між середнім глобальним вкладенням view embeddings і кожним із локальних вкладень view. Я не маю чіткого уявлення про компроміси у їхніх трансформаціях погляду, які все ще здаються досить спроможними, але саме вони визначатимуть природу того, що відфільтровується з репрезентації. Вивчення того, що не має значення, критично важливо, але специфікація «матерів» присутня лише в трансформаціях поглядів. LeJEPA є архітектурно незалежною — може використовуватися будь-що, що перетворює партію вибірки з набору даних у вектори. Трансформери зору, MLP, ConvNet тощо. Конкретні доповнення для переглядів залежать від модальності введення, але алгоритм LeJEPA може працювати з аудіо, зображеннями, відео чи іншими функціями. Вони показують, що втрата LeJEPA на моделі великого фундаменту дуже свідчить про виконання наступних завдань як безпосередньо, так і з евристикою для покращення прогностичної сили втрати далі. Вони також показують, що його можна використовувати для навчання з нуля на невеликих наборах даних із усього 1000 зразків і досягати кращих результатів, ніж дослідження звичайної загальної базової моделі. Мені було приємно побачити зразки блоків коду в статті замість псевдокоду з грецькою, а також репозиторію на github. Додаток D містить цікаві деталі щодо створення якісного покриття одиничних гіперсфер із низькою невідповідністю вибірок шляхом трансформації послідовностей Соболя, але це лише для їхнього теоретичного аналізу, і вони показують, що краще просто створювати нові випадкові гіпервектори кожну партію, навіть якщо 16 випадкових векторів перевершують фіксований набір у тисячі. Декілька запитань:...