Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

способ интерпретировать это таков: после постобучения ваши веса как бы находятся на равном расстоянии от всех задач, которые они видели во время предварительного обучения (модель видела все задачи, поэтому они притянули её к себе). Таким образом, всё, что делает этот метод, это изменяет веса и смотрит, какие изменения приближают сеть к весам, специфичным для задачи. Это как действительно дешёвый lora это также связано с наблюдением, что постобучение не добавляет знаний, а просто вытачивает распределение предварительного обучения.

возмущение весов действительно аналогично случайным развертываниям при высокой температуре. Я думаю, что это может быть итеративным (как grpo) возмущайте веса с большим радиусом -> выбирайте лучших исполнителей -> продолжайте уменьшать радиус это *должно* увеличить точность задачи @yule_gan ты пробовал это?

41

Топ

Рейтинг

Избранное