Siste nytt fra Tencent HY Research-bloggen: Å bygge bro mellom LLM-infrastruktur og algoritmeutvikling. 🚀   Vi åpner GradLoc: Et white-box diagnostisk verktøy som sporer gradienttopper til den eksakte skyldige tokenen i O(log N) tid.   Å skalere RLVR trenger ikke lenger å være en kamp mot «black-box»-gradientspikes. Overgangen fra heuristisk trial-and-error til deterministisk ingeniørdiagnostikk.   Blogg: GitHub:
🔍 Fra globale topper til enkeltstående tokens   Standard overvåking forteller deg bare når en gradienttopp skjer. GradLoc forteller deg hvor. Ved å bruke distribuert binærsøk isolerer den det spesifikke tokenet som forårsaker toppen, med neglisjerbar amortisert overhead. Det er en "alltid på"-debugger for LLM-trening.
💡 Ny kollapsmodus oppdaget   Det er ikke alltid «skitne data» eller «trenings-inferens-mismatch». GradLoc avslørte lagvis gradientheterogenitet: Tokens kan ha "trygge" Importance Sampling (IS)-forhold, men likevel få spesifikke lag til å eksplodere mens andre forblir stabile. Standard global klipping er et for grovt verktøy for dette.
🛡️ Løsningen: LayerClip   For å adressere lagvis gradient-heterogenitet foreslår vi lagvis gradientklipping. I stedet for en uniform global klemme, anvender LayerClip adaptive begrensninger basert på lokale lagstatistikker. Denne finkornede kontrollen stabiliserer RLVR-treningen der standardmetoder feiler.
🚀 Fremtidig arbeid   RLVR trenger bedre ingeniørobservabilitet for dypere forståelse og analyse. Vi åpner GradLoc for åpen kildekode for å senke terskelen for finkornet diagnostikk. Vi håper dette hjelper fellesskapet å se inn i ingeniørkunstens «black box» og bevege seg mot optimalisering fra grunnprinsippene.
1,9K