Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Najnowsze z bloga Tencent HY Research: Łączenie infrastruktury LLM i rozwoju algorytmów. 🚀
Udostępniamy GradLoc: narzędzie diagnostyczne typu white-box, które śledzi skoki gradientu do dokładnego winowajcy tokena w czasie O(log N).
Skalowanie RLVR nie musi już być walką z "czarnymi skrzynkami" skoków gradientu. Przechodzimy od heurystycznego prób i błędów do deterministycznej diagnostyki inżynieryjnej.
Blog:
GitHub:


🔍 Od globalnych szczytów do pojedynczych tokenów
Standardowe monitorowanie informuje tylko o tym, kiedy występuje szczyt gradientu. GradLoc mówi, gdzie. Używając rozproszonego wyszukiwania binarnego, izoluje konkretny token powodujący szczyt z znikomym kosztami amortyzowanymi. To "zawsze włączony" debugger do treningu LLM.
💡 Odkryto nowy tryb zapadania się
To nie zawsze jest "brudne dane" lub "niedopasowanie treningu do wnioskowania." GradLoc ujawnił Heterogeniczność Gradientu Warstwowego: Tokeny mogą mieć "bezpieczne" wskaźniki Próbkowania Istotności (IS), ale nadal mogą powodować eksplozję w konkretnych warstwach, podczas gdy inne pozostają stabilne. Standardowe globalne przycinanie jest zbyt tępe jako narzędzie do tego.
🛡️ Rozwiązanie: LayerClip
Aby poradzić sobie z heterogenicznością gradientów warstwowych, proponujemy przycinanie gradientów warstwowych. Zamiast jednolitego globalnego ograniczenia, LayerClip stosuje adaptacyjne ograniczenia oparte na lokalnych statystykach warstw. Ta precyzyjna kontrola stabilizuje trening RLVR, gdzie standardowe metody zawodzą.
🚀 Przyszła praca
RLVR potrzebuje lepszej obserwowalności inżynieryjnej, aby uzyskać głębsze zrozumienie i analizę. Udostępniamy GradLoc jako open-source, aby obniżyć barierę dla szczegółowej diagnostyki. Mamy nadzieję, że to pomoże społeczności zajrzeć do inżynieryjnego "czarnego pudełka" i przejść do optymalizacji na podstawie pierwszych zasad.
1,9K
Najlepsze
Ranking
Ulubione
