#PaperADay 10 LeJEPA: Доказуемое и масштабируемое самообучение без эвристик Комментарии к #PaperADay 3 рекомендовали эту статью как передовую работу по JEPA, и она действительно выглядит намного лучше! Они признают, что большая часть предыдущих исследований по JEPA является произвольной и полна эвристик, но здесь они делают сильные теоретические утверждения о оптимальности и предоставляют доказательства (которые я не читал). Первое утверждение заключается в том, что изотропное гауссово распределение является уникальным оптимальным распределением встраивания как для линейного, так и для нелинейного зондирования, минимизируя риск в худшем случае для последующих задач. Я бы принял это на веру с простым "звучит хорошо для меня", но они подробно объясняют это с примерами. На самом деле получить изотропное гауссово распределение в высоких измерениях легче сказать, чем сделать. Они представляют Регуляризацию Изотропного Гаусса (SIGReg) как хорошо себя ведущую функцию потерь для достижения этого после анализа ряда различных статистических тестов, и утверждают, что она преодолевает проклятие размерности с линейной масштабируемостью. Конечная потеря — это просто фактор смешивания для взвешивания потерь предсказания JEPA против потерь изотропии SIGReg. Это единственный настраиваемый гиперпараметр для LeJEPA. Несмотря на "P" в JEPA, они не используют сети предсказателей здесь, они просто напрямую сравнивают встраивания представлений для потерь JEPA. Сети предсказателей все еще могут быть полезны для видеопоследовательностей, особенно когда они условны с информацией о действиях для агентов / роботов. Каждое обучающее изображение увеличивается, чтобы получить 2 глобальных представления и 6 локальных представлений с различными пространственными масштабами, но с одним и тем же набором цветовых и геометрических преобразований. Потеря — это среднее значение MSE между средним значением глобальных встраиваний и каждым из локальных встраиваний. У меня нет четкого представления о компромиссах в их преобразованиях представлений, которые все еще кажутся очень произвольными, но они определят природу того, что будет отфильтровано из представления. Обучение тому, что не имеет значения, критично, но спецификация "имеет значение" только подразумевается в преобразованиях представлений. LeJEPA сама по себе независима от архитектуры — все, что обрабатывает пакет образцов из набора данных в векторы, может быть использовано. Визуальные трансформеры, MLP, ConvNets и т. д. Конкретные увеличения для представлений будут специфичны для входной модальности, но алгоритм LeJEPA может работать с аудио, изображениями, видео или другими вещами. Они показывают, что потеря LeJEPA на большой базовой модели очень показательна для производительности последующих задач, как напрямую, так и с эвристикой для улучшения предсказательной силы потерь дальше. Они также показывают, что это можно использовать для обучения с нуля на небольших наборах данных с всего лишь 1000 образцов и добиться лучших результатов, чем зондирование обычной общей базовой модели. Мне было приятно видеть образцы кода в статье вместо насыщенного греческими символами псевдокода, а также репозиторий на github. Приложение D содержит интересные детали о генерации хорошего покрытия единичных гиперсфер с низкими дисперсионными образцами путем преобразования последовательностей Соболя, но это только для их теоретического анализа, и они показывают, что вам лучше просто создавать новые случайные гипервекторы каждый пакет, даже 16 случайных векторов превосходят фиксированный набор из тысяч. ...