Senaste nytt från Tencent HY Research-bloggen: Att bygga broar mellan LLM-infrastruktur och algoritmutveckling. 🚀   Vi gör GradLoc öppen källkod: Ett white-box-diagnostiskt verktyg som spårar gradienttoppar till den exakta skyldige token på O(log N) tid.   Att skala RLVR behöver inte längre vara en kamp mot "svartbox"-gradientspikar. Att gå från heuristisk trial-and-error till deterministisk ingenjörsdiagnostik.   Blogg: GitHub:
🔍 Från globala toppar till enskilda tokens   Standardövervakning visar bara när en gradienttopp sker. GradLoc visar var. Med distribuerad binär sökning isolerar den den specifika token som orsakar toppen med försumbar amortiserad overhead. Det är en "alltid på"-felsökare för LLM-utbildning.
💡 Nytt kollapsläge upptäckt   Det är inte alltid "smutsiga data" eller "tränings- och inferensmissmatch." GradLoc avslöjade lagervis gradientheterogenitet: Tokens kan ha "säkra" Importance Sampling (IS)-förhållanden men ändå orsaka att specifika lager exploderar medan andra förblir stabila. Standard global klippning är ett för trubbigt verktyg för detta.
🛡️ Lösningen: LayerClip   För att hantera lagervis gradientheterogenitet föreslår vi lagervis gradientklippning. Istället för en enhetlig global clamp applicerar LayerClip adaptiva begränsningar baserade på lokal lagerstatistik. Denna finjusterade kontroll stabiliserar RLVR-träningen där standardmetoder misslyckas.
🚀 Framtida arbete   RLVR behöver bättre ingenjörsobservabilitet för djupare förståelse och analys. Vi gör GradLoc öppen källkod för att sänka tröskeln för finjusterad diagnostik. Vi hoppas att detta hjälper communityn att se inne i ingenjörsmässig "black box" och gå mot optimering från grundprinciper.
1,91K