Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
способ интерпретировать это таков: после постобучения ваши веса как бы находятся на равном расстоянии от всех задач, которые они видели во время предварительного обучения (модель видела все задачи, поэтому они притянули её к себе). Таким образом, всё, что делает этот метод, это изменяет веса и смотрит, какие изменения приближают сеть к весам, специфичным для задачи. Это как действительно дешёвый lora
это также связано с наблюдением, что постобучение не добавляет знаний, а просто вытачивает распределение предварительного обучения.

13 мар., 23:41
Простое добавление гауссовского шума к LLM (один шаг — без итераций, без скорости обучения, без градиентов) и их ансамблирование может достичь производительности, сопоставимой или даже лучшей, чем стандартные GRPO/PPO в задачах математического рассуждения, программирования, письма и химии. Мы называем этот алгоритм RandOpt.
Чтобы подтвердить, что это не ограничивается конкретными моделями, мы протестировали его на Qwen, Llama, OLMo3 и VLM.
Что стоит за этим? Мы обнаружили, что в гауссовском поисковом окружении вокруг предобученных LLM разнообразные эксперты по задачам плотно распределены — режим, который мы называем Нейронные Заросли.
Статья:
Код:
Вебсайт:

возмущение весов действительно аналогично случайным развертываниям при высокой температуре. Я думаю, что это может быть итеративным (как grpo)
возмущайте веса с большим радиусом -> выбирайте лучших исполнителей -> продолжайте уменьшать радиус
это *должно* увеличить точность задачи
@yule_gan ты пробовал это?
41
Топ
Рейтинг
Избранное
