il modo di interpretarlo è che dopo il post-training i tuoi pesi sono in qualche modo equidistanti da tutti i compiti che ha visto durante il pretraining (il modello ha visto tutti i compiti quindi li ha avvicinati a sé). quindi tutto ciò che fa questo metodo è perturbare i pesi e vedere quali perturbazioni avvicinano la rete ai pesi specifici per il compito. è come un lora davvero economico questo si collega anche all'osservazione che il post-training non aggiunge conoscenza, ma semplicemente scolpisce la distribuzione del pretraining.
Yulu Gan
Yulu Gan13 mar, 23:41
Aggiungere semplicemente rumore gaussiano agli LLM (un passo—nessuna iterazione, nessun tasso di apprendimento, nessun gradiente) e combinarli può raggiungere prestazioni comparabili o addirittura migliori rispetto ai GRPO/PPO standard in compiti di ragionamento matematico, programmazione, scrittura e chimica. Chiamiamo questo algoritmo RandOpt. Per verificare che ciò non sia limitato a modelli specifici, lo abbiamo testato su Qwen, Llama, OLMo3 e VLM. Cosa c'è dietro a questo? Scopriamo che nel quartiere di ricerca gaussiana attorno agli LLM pre-addestrati, esperti di compiti diversi sono densamente distribuiti — un regime che definiamo Neural Thickets. Carta: Codice: Sito web:
perturbare i pesi è davvero analogo ai roll-out casuali ad alta temperatura. Penso che questo possa essere iterativo (come grpo) perturbare i pesi con un grande raggio -> selezionare i migliori performer -> continuare a ridurre il raggio questo *dovrebbe* aumentare l'accuratezza del compito @yule_gan hai provato questo?
33