Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

a maneira de interpretar isso é que, após o treinamento pós, os seus pesos estão de certa forma equidistantes de todas as tarefas que viu durante o pré-treinamento (o modelo viu todas as tarefas, então elas o puxaram para perto delas). então, tudo o que este método faz é perturbar os pesos e ver quais perturbações aproximam a rede dos pesos específicos da tarefa. é como um lora realmente barato e isso também se conecta à observação de que o pós-treinamento não adiciona conhecimento, mas simplesmente esculpe a distribuição do pré-treinamento.

perturbar pesos é realmente análogo a rollouts aleatórios em alta temperatura. Eu realmente acho que isso pode ser iterativo (como grpo) perturbar pesos com grande raio -> selecionar melhores desempenhos -> continuar diminuindo o raio isso *deveria* aumentar a precisão da tarefa @yule_gan você tentou isso?

37

Top

Classificação

Favoritos