Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3 (надеюсь, встроенные ссылки достаточно снизят видимость, чтобы не слишком много людей были недовольны этим контентом)
@ylecun в последнее время был в центре внимания, поэтому сегодня я ознакомился с:
Обучение с самонаблюдением на изображениях с предсказательной архитектурой совместного встраивания
В целом я согласен с тем, что важные предсказания касаются внутренних представлений, а не пикселей, поэтому генеративные модели могут быть несколько контрпродуктивными или, по крайней мере, ненужными неэффективными для многих задач.
Тем не менее, я склонен думать, что внутреннее предсказание должно происходить на более детальном уровне, чем полная обработка изображения, на уровне миниколонн или даже нейронов, и с большим временным компонентом, чем локальное маскирование.
Обучение с самонаблюдением работает на большом наборе данных, не зная, что будет запрошено у модели позже, просто накапливая знания из данных. После этого вы можете обучить простой линейный классификатор (линейный зонд) на выходных данных и получить довольно хорошую производительность. Лучшие линейные зонды на замороженных моделях с самонаблюдением не так сильны, как классификаторы, обученные от начала до конца, но точно такая же SSM может быть сильной для многих различных задач одновременно.
В статье отмечается, что в отличие от JEPA, методы обучения на основе инвариантности, которые берут одно и то же изображение и увеличивают его двумя разными способами, сохраняя представительную схожесть, получают свою производительность за счет набора увеличений изображений, предвзятых исследователем, что не переносится на другие модальности, такие как аудио или текст. Я отмечаю, что JEPA очень чувствителен к точному маскированию (таблица 6), что не кажется слишком отличным.
Целевой кодировщик поверхностно похож на современную формулировку целевой модели в DQN RL сетях с EMA весов вместо случайного копирования, но хотя это было вспомогательным средством для RL (и не всегда необходимо), здесь у него более фундаментальная цель — предотвратить коллапс представлений в тривиальные для предсказания. Это, наряду с LayerNorm, также являющимся важным элементом этого, не прописано в статье, и мне пришлось искать ссылки на это в других источниках.
Довольно странно, что они применяют случайный обрез 0.85-1.0 к контексту, но удаляют блоки только справа и снизу. Я ожидал увидеть абляцию этого обреза.
Увеличение разрешения изображения — это немного странный способ масштабирования модели. Вероятно, на самом деле не разрешение помогает, а общее количество патчей.
Существует большой объем работ по самонаблюдению, с которым я знаком лишь смутно, поэтому, вероятно, я упускаю некоторые ключевые отличительные аспекты JEPA. Я все еще пытаюсь разобраться с основным вопросом о том, что именно учат контексты и как архитектура модели и обучение направляют это от коллапса.
Топ
Рейтинг
Избранное
