a maneira de interpretar isso é que, após o treinamento pós, os seus pesos estão de certa forma equidistantes de todas as tarefas que viu durante o pré-treinamento (o modelo viu todas as tarefas, então elas o puxaram para perto delas). então, tudo o que este método faz é perturbar os pesos e ver quais perturbações aproximam a rede dos pesos específicos da tarefa. é como um lora realmente barato e isso também se conecta à observação de que o pós-treinamento não adiciona conhecimento, mas simplesmente esculpe a distribuição do pré-treinamento.
Yulu Gan
Yulu Gan13/03, 23:41
Adicionar simplesmente ruído gaussiano a LLMs (um passo — sem iterações, sem taxa de aprendizado, sem gradientes) e agrupá-los pode alcançar um desempenho comparável ou até melhor do que o GRPO/PPO padrão em tarefas de raciocínio matemático, codificação, escrita e química. Chamamos a este algoritmo RandOpt. Para verificar que isso não está limitado a modelos específicos, testámo-lo no Qwen, Llama, OLMo3 e VLMs. O que está por trás disso? Descobrimos que na vizinhança de busca gaussiana em torno de LLMs pré-treinados, especialistas em tarefas diversas estão densamente distribuídos — um regime que chamamos de Bosques Neurais. Artigo: Código: Website:
perturbar pesos é realmente análogo a rollouts aleatórios em alta temperatura. Eu realmente acho que isso pode ser iterativo (como grpo) perturbar pesos com grande raio -> selecionar melhores desempenhos -> continuar diminuindo o raio isso *deveria* aumentar a precisão da tarefa @yule_gan você tentou isso?
37