DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

il modo di interpretarlo è che dopo il post-training i tuoi pesi sono in qualche modo equidistanti da tutti i compiti che ha visto durante il pretraining (il modello ha visto tutti i compiti quindi li ha avvicinati a sé). quindi tutto ciò che fa questo metodo è perturbare i pesi e vedere quali perturbazioni avvicinano la rete ai pesi specifici per il compito. è come un lora davvero economico questo si collega anche all'osservazione che il post-training non aggiunge conoscenza, ma semplicemente scolpisce la distribuzione del pretraining.

perturbare i pesi è davvero analogo ai roll-out casuali ad alta temperatura. Penso che questo possa essere iterativo (come grpo) perturbare i pesi con un grande raggio -> selezionare i migliori performer -> continuare a ridurre il raggio questo *dovrebbe* aumentare l'accuratezza del compito @yule_gan hai provato questo?

33

Principali

Ranking

Preferiti