DApp Store | Web3 Hub for hendelser og spill

Populære emner

Siste nytt fra Tencent HY Research-bloggen: Å bygge bro mellom LLM-infrastruktur og algoritmeutvikling. 🚀 Vi åpner GradLoc: Et white-box diagnostisk verktøy som sporer gradienttopper til den eksakte skyldige tokenen i O(log N) tid. Å skalere RLVR trenger ikke lenger å være en kamp mot «black-box»-gradientspikes. Overgangen fra heuristisk trial-and-error til deterministisk ingeniørdiagnostikk. Blogg: GitHub:

🔍 Fra globale topper til enkeltstående tokens Standard overvåking forteller deg bare når en gradienttopp skjer. GradLoc forteller deg hvor. Ved å bruke distribuert binærsøk isolerer den det spesifikke tokenet som forårsaker toppen, med neglisjerbar amortisert overhead. Det er en "alltid på"-debugger for LLM-trening.

💡 Ny kollapsmodus oppdaget Det er ikke alltid «skitne data» eller «trenings-inferens-mismatch». GradLoc avslørte lagvis gradientheterogenitet: Tokens kan ha "trygge" Importance Sampling (IS)-forhold, men likevel få spesifikke lag til å eksplodere mens andre forblir stabile. Standard global klipping er et for grovt verktøy for dette.

🛡️ Løsningen: LayerClip For å adressere lagvis gradient-heterogenitet foreslår vi lagvis gradientklipping. I stedet for en uniform global klemme, anvender LayerClip adaptive begrensninger basert på lokale lagstatistikker. Denne finkornede kontrollen stabiliserer RLVR-treningen der standardmetoder feiler.

🚀 Fremtidig arbeid RLVR trenger bedre ingeniørobservabilitet for dypere forståelse og analyse. Vi åpner GradLoc for åpen kildekode for å senke terskelen for finkornet diagnostikk. Vi håper dette hjelper fellesskapet å se inn i ingeniørkunstens «black box» og bevege seg mot optimalisering fra grunnprinsippene.

1,9K

Topp

Rangering

Favoritter