Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vihdoin tohtorintutkintoni viimeinen paperi
🧮 Oppiminen päättelemään 13 parametrilla 🧮
kehitämme TinyLoRA:n, uuden ft-menetelmän. TinyLoRA + RL:n avulla mallit oppivat hyvin kymmenillä tai sadoilla parametreilla
esimerkki: käytämme vain 13 parametria kouluttaaksemme 7B Qwen-mallin 76–91 % GSM8K 🤯:ssa

Pidän vuodelta 2018 julkaistusta artikkelista nimeltä Playing Atari with Six Neurons. se antoi ennakkotapauksen, että RL voi oppia joitakin "ohjelmia", jotka vievät hyvin vähän tavuja
mutta pienin hienosäätö, jonka ihmiset nykyään yleensä tekevät, on LoRA rank=1:llä, joka käyttää edelleen miljoonia parametreja... 🤔
pääsimme tähän ajatukseen, minkä kokoinen "ohjelma" voisi opettaa LLaMA:n tai Qwenin järkeilyä. 3 miljoonaa parametria bf16:ssa vie 6 MB. Tämä tuntuu liian isolta?
teoriamme: jos jokainen RL-jakso lähettää noin 1 bitin, meidän pitäisi pystyä koodaamaan esimerkiksi GSM8K paljon vähemmällä datalla...

ja huomaa, että tämä *ei* toimi SFT:n kanssa. Käytännössä, jotta SFT:n tappiot minimoidaan, sinun täytyy muistaa kaikki output tokenit 100 % varmuudella. Tämä vaatii paljon enemmän osia
ja siksi tarvitsemme suurempia päivityskooja SFT-malleihin hyvän suorituskyvyn saavuttamiseksi:
(lisää tästä kohdassa 3)

tämä ei ole pelkkä GSM8K:n tai minkään tietyn mallin artefakti
kaikilla kokeilmillamme aineistoilla (MATH, AIME, Minerva...) pystymme palauttamaan >90 % suorituskyvyn parannuksista kouluttamalla satoja parametreja (paitsi AMC, joka joskus vaatii tuhansia)

yksi hauska insinööriyksityiskohta oli, että on todella vaikeaa tehdä RL:ää eri LoRA-muodoilla, koska LLM RL vaatii nopeaa päättelyä, mikä vaatii laitteistotason toteutuksen (kernelit)
Pääsin tämän kiertämään yhdistämällä LoRA-painot jokaisessa käyttöönotossa ja purkamalla ne koulutusta varten. Se ei oikeastaan ole kovin hidasta. Lehdessä on lisätietoja, ja jaamme koodin pian
124
Johtavat
Rankkaus
Suosikit
