Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Senaste nytt från Tencent HY Research-bloggen: Att bygga broar mellan LLM-infrastruktur och algoritmutveckling. 🚀
Vi gör GradLoc öppen källkod: Ett white-box-diagnostiskt verktyg som spårar gradienttoppar till den exakta skyldige token på O(log N) tid.
Att skala RLVR behöver inte längre vara en kamp mot "svartbox"-gradientspikar. Att gå från heuristisk trial-and-error till deterministisk ingenjörsdiagnostik.
Blogg:
GitHub:


🔍 Från globala toppar till enskilda tokens
Standardövervakning visar bara när en gradienttopp sker. GradLoc visar var. Med distribuerad binär sökning isolerar den den specifika token som orsakar toppen med försumbar amortiserad overhead. Det är en "alltid på"-felsökare för LLM-utbildning.
💡 Nytt kollapsläge upptäckt
Det är inte alltid "smutsiga data" eller "tränings- och inferensmissmatch." GradLoc avslöjade lagervis gradientheterogenitet: Tokens kan ha "säkra" Importance Sampling (IS)-förhållanden men ändå orsaka att specifika lager exploderar medan andra förblir stabila. Standard global klippning är ett för trubbigt verktyg för detta.
🛡️ Lösningen: LayerClip
För att hantera lagervis gradientheterogenitet föreslår vi lagervis gradientklippning. Istället för en enhetlig global clamp applicerar LayerClip adaptiva begränsningar baserade på lokal lagerstatistik. Denna finjusterade kontroll stabiliserar RLVR-träningen där standardmetoder misslyckas.
🚀 Framtida arbete
RLVR behöver bättre ingenjörsobservabilitet för djupare förståelse och analys. Vi gör GradLoc öppen källkod för att sänka tröskeln för finjusterad diagnostik. Vi hoppas att detta hjälper communityn att se inne i ingenjörsmässig "black box" och gå mot optimering från grundprinciper.
1,91K
Topp
Rankning
Favoriter
