Nejnovější z blogu Tencent HY Research: Propojení infrastruktury LLM a vývoje algoritmů. 🚀   Otevíráme GradLoc: diagnostický nástroj typu white-box, který sleduje gradientní špičky k přesnému viníkovému tokenu v čase O(log N).   Škálování RLVR už nemusí být bojem proti "black-box" gradientovým špičkám. Přechod od heuristického pokus-omyl k deterministické inženýrské diagnostice.   Blog: GitHub:
🔍 Od globálních výkyvů k jednotlivým žetonům   Standardní monitorování vám řekne jen tehdy, kdy dojde ke skoku gradientu. GradLoc vám řekne kde. Pomocí distribuovaného binárního vyhledávání izoluje konkrétní token způsobující nárůst s zanedbatelnou amortizovanou režií. Je to "vždy zapnutý" debugger pro trénink LLM.
💡 Objeven nový způsob kolapsu   Není to vždy "špinavá data" nebo "nesoulad mezi tréninkem a inferencem". GradLoc odhalil vrstvovou gradientní heterogenitu: Tokeny mohou mít "bezpečné" poměry důležitého vzorkování (IS), ale přesto způsobit explozi některých vrstev, zatímco jiné zůstávají stabilní. Standardní globální ořezávání je na to příliš tupý nástroj.
🛡️ Řešení: LayerClip   Abychom řešili vrstvovou gradientní heterogenitu, navrhujeme vrstvové ořezávání gradientů. Místo uniformního globálního klamu aplikuje LayerClip adaptivní omezení založená na lokálních statistikách vrstev. Tato jemná kontrola stabilizuje trénink RLVR tam, kde standardní metody selhávají.
🚀 Budoucí práce   RLVR potřebuje lepší inženýrskou pozorovatelnost pro hlubší porozumění a analýzu. GradLoc otevíráme jako otevřený zdroj, abychom snížili bariéru pro detailní diagnostiku. Doufáme, že to pomůže komunitě nahlédnout do inženýrské "černé skříňky" a posunout se k optimalizaci od základů.
1,89K