Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Гипотеза о универсальном подпространстве весов
Наши результаты предлагают новые идеи о внутренней организации информации в глубоких сетях и поднимают важные вопросы о возможности открытия этих универсальных подпространств без необходимости в обширных данных и вычислительных ресурсах.
... выполняя спектральные разложения по слоям и сохраняя только ведущие главные направления, можно извлечь точное приближение этих универсальных подпространств. Эмпирически это поведение проявляется широко: в полностью дообученных моделях и адаптерах на основе LoRA, в моделях, обученных с нуля, как в генеративных, так и в дискриминационных настройках, а также в мультимодальных конфигурациях. Более того, приближенные подпространства обобщаются на задачи вне распределения, где проекция моделей и обучение только небольшого набора коэффициентов достаточно для восстановления высокой производительности. Это позволяет адаптироваться к новым задачам без повторного обучения или хранения полных весов и поддерживает надежное многозадачное обучение, масштабируемую тонкую настройку и принципиальное объединение моделей в рамках единой унифицированной структуры.
Практические последствия значительны. Путем повторного использования общего набора главных направлений по слоям и обучения только легковесных коэффициентов для каждой задачи большие модели могут быть расширены и обслужены с резко уменьшенными вычислительными, памятью и инженерными затратами.
... мы можем эффективно перерабатывать и заменять доступные предобученные модели на универсальную модель подпространства, где каждое отдельное представление представлено разреженным набором коэффициентов. В этом разделе мы показываем набор экспериментов, где мы используем универсальные подпространства для обучения новым задачам, замораживая компоненты и просто обучая коэффициенты с помощью градиентного спуска. Мы обнаруживаем, что поскольку мы обучаем только коэффициенты, это значительно сокращает количество параметров, необходимых для обучения новых моделей. Более того, поскольку эти коэффициенты являются просто линейными масштабируемыми значениями, оптимизация проходит более гладко и быстрее.

Топ
Рейтинг
Избранное
