Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
alla fine, il documento finale del mio dottorato
🧮 Imparare a Ragionare in 13 Parametri 🧮
sviluppiamo TinyLoRA, un nuovo metodo di ft. con TinyLoRA + RL, i modelli apprendono bene con dozzine o centinaia di parametri
esempio: utilizziamo solo 13 parametri per addestrare il modello Qwen da 7B dal 76 al 91% su GSM8K 🤯

c'è un articolo che mi piace del 2018 intitolato "Playing Atari with Six Neurons". Ha stabilito un precedente che l'RL può apprendere alcuni "programmi" che richiedono pochissimi byte
eppure il più piccolo fine-tuning che le persone fanno di solito al giorno d'oggi è LoRA con rank=1, che utilizza comunque milioni di parametri... 🤔
il modo in cui siamo arrivati qui è stato pensare a quale "programma" potrebbe insegnare a LLaMA o Qwen a ragionare. 3 milioni di parametri in bf16 occupano 6 MB. Questo sembra troppo grande?
la nostra teoria: se ogni episodio di RL trasmette circa 1 bit, dovremmo essere in grado di codificare ad esempio GSM8K in molti meno dati...

e nota che questo *non* funziona con SFT. fondamentalmente, per minimizzare completamente le perdite con SFT, devi memorizzare tutti i token di output con il 100% di fiducia. questo richiede molti più bit
e di conseguenza, abbiamo bisogno di dimensioni di aggiornamento maggiori per i modelli SFT per ottenere buone prestazioni:
(maggiori dettagli su questo nella Sezione 3)

questo non è solo un artefatto di GSM8K o di un modello specifico
su tutti i dataset che abbiamo provato (MATH, AIME, Minerva...), siamo in grado di recuperare oltre il 90% dei guadagni di prestazione addestrando centinaia di parametri (eccetto AMC, che a volte richiede migliaia)

un dettaglio ingegneristico divertente è che è davvero difficile fare RL con diverse forme di LoRA, poiché il RL degli LLM richiede un'inferenza veloce, che richiede un'implementazione a livello hardware (kernels)
ho aggirato questo problema semplicemente unendo i pesi di LoRA ad ogni rollout e poi separandoli per l'addestramento. in realtà non è così lento. ci sono alcuni dettagli in più nel documento e condividerò il codice presto.
111
Principali
Ranking
Preferiti
