Viimeisimmät tiedot Tencent HY Research -blogista: LLM-infrastruktuurin ja algoritmikehityksen yhdistäminen. 🚀   Avaamme lähdekoodin GradLocin: valkoisen laatikon diagnostiikkatyökalun, joka seuraa gradienttipiikkejä tarkalleen syyllisen tunnisteeseen O(log N) -ajassa.   RLVR:n skaalaamisen ei enää tarvitse olla taistelu "mustan laatikon" gradienttipiikkejä vastaan. Siirrytään heuristisesta kokeilusta ja erehdysmenetelmästä deterministiseen insinööridiagnostiikkaan.   Blogi: GitHub:
🔍 Globaaleista piikeistä yksittäisiin tokeneihin   Tavallinen seuranta kertoo vain, kun gradienttipiikki tapahtuu. GradLoc kertoo missä. Hajautetun binäärihaun avulla se eristää piikin aiheuttavan tietyn tokenin merkityksettömällä amortisoidulla ylikuormalla. Se on "aina päällä" -debuggeri LLM-koulutukseen.
💡 Uusi romahdustila löydetty   Kyse ei ole aina "likaisesta datasta" tai "harjoituspäättelyn epäsuhtauksesta". GradLoc paljasti kerrosittain gradienttiheterogeenisyyden: Tokeneilla voi olla "turvalliset" Importance Sampling (IS) -suhteet, mutta silti tietyt kerrokset räjähtävät, kun taas toiset pysyvät vakaina. Tavallinen globaali leikkaus on tähän liian tylsä työkalu.
🛡️ Ratkaisu: LayerClip   Kerrosittain gradienttiheterogeenisyyden ratkaisemiseksi ehdotamme kerrosittain gradienttileikkausta. Yhtenäisen globaalin puristimen sijaan LayerClip soveltaa adaptiivisia rajoitteita paikallisten kerrostilastojen pohjalta. Tämä hienojakoinen ohjaus vakauttaa RLVR-koulutuksen siellä, missä standardimenetelmät epäonnistuvat.
🚀 Tuleva työ   RLVR tarvitsee parempaa insinöörihavainnointia syvempää ymmärrystä ja analyysiä varten. Julkaisemme GradLocin avoimen lähdekoodin alentaaksemme kynnystä, joka vaatii tarkkoja diagnostiikkoja. Toivomme, että tämä auttaa yhteisöä tarkastelemaan insinöörien "mustaa laatikkoa" ja siirtymään optimointiin alusta alkaen.
1,83K