Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
il modo di interpretarlo è che dopo il post-training i tuoi pesi sono in qualche modo equidistanti da tutti i compiti che ha visto durante il pretraining (il modello ha visto tutti i compiti quindi li ha avvicinati a sé). quindi tutto ciò che fa questo metodo è perturbare i pesi e vedere quali perturbazioni avvicinano la rete ai pesi specifici per il compito. è come un lora davvero economico
questo si collega anche all'osservazione che il post-training non aggiunge conoscenza, ma semplicemente scolpisce la distribuzione del pretraining.

13 mar, 23:41
Aggiungere semplicemente rumore gaussiano agli LLM (un passo—nessuna iterazione, nessun tasso di apprendimento, nessun gradiente) e combinarli può raggiungere prestazioni comparabili o addirittura migliori rispetto ai GRPO/PPO standard in compiti di ragionamento matematico, programmazione, scrittura e chimica. Chiamiamo questo algoritmo RandOpt.
Per verificare che ciò non sia limitato a modelli specifici, lo abbiamo testato su Qwen, Llama, OLMo3 e VLM.
Cosa c'è dietro a questo? Scopriamo che nel quartiere di ricerca gaussiana attorno agli LLM pre-addestrati, esperti di compiti diversi sono densamente distribuiti — un regime che definiamo Neural Thickets.
Carta:
Codice:
Sito web:

perturbare i pesi è davvero analogo ai roll-out casuali ad alta temperatura. Penso che questo possa essere iterativo (come grpo)
perturbare i pesi con un grande raggio -> selezionare i migliori performer -> continuare a ridurre il raggio
questo *dovrebbe* aumentare l'accuratezza del compito
@yule_gan hai provato questo?
33
Principali
Ranking
Preferiti
