Najnowsze z bloga Tencent HY Research: Łączenie infrastruktury LLM i rozwoju algorytmów. 🚀   Udostępniamy GradLoc: narzędzie diagnostyczne typu white-box, które śledzi skoki gradientu do dokładnego winowajcy tokena w czasie O(log N).   Skalowanie RLVR nie musi już być walką z "czarnymi skrzynkami" skoków gradientu. Przechodzimy od heurystycznego prób i błędów do deterministycznej diagnostyki inżynieryjnej.   Blog: GitHub:
🔍 Od globalnych szczytów do pojedynczych tokenów   Standardowe monitorowanie informuje tylko o tym, kiedy występuje szczyt gradientu. GradLoc mówi, gdzie. Używając rozproszonego wyszukiwania binarnego, izoluje konkretny token powodujący szczyt z znikomym kosztami amortyzowanymi. To "zawsze włączony" debugger do treningu LLM.
💡 Odkryto nowy tryb zapadania się   To nie zawsze jest "brudne dane" lub "niedopasowanie treningu do wnioskowania." GradLoc ujawnił Heterogeniczność Gradientu Warstwowego: Tokeny mogą mieć "bezpieczne" wskaźniki Próbkowania Istotności (IS), ale nadal mogą powodować eksplozję w konkretnych warstwach, podczas gdy inne pozostają stabilne. Standardowe globalne przycinanie jest zbyt tępe jako narzędzie do tego.
🛡️ Rozwiązanie: LayerClip   Aby poradzić sobie z heterogenicznością gradientów warstwowych, proponujemy przycinanie gradientów warstwowych. Zamiast jednolitego globalnego ograniczenia, LayerClip stosuje adaptacyjne ograniczenia oparte na lokalnych statystykach warstw. Ta precyzyjna kontrola stabilizuje trening RLVR, gdzie standardowe metody zawodzą.
🚀 Przyszła praca   RLVR potrzebuje lepszej obserwowalności inżynieryjnej, aby uzyskać głębsze zrozumienie i analizę. Udostępniamy GradLoc jako open-source, aby obniżyć barierę dla szczegółowej diagnostyki. Mamy nadzieję, że to pomoże społeczności zajrzeć do inżynieryjnego "czarnego pudełka" i przejść do optymalizacji na podstawie pierwszych zasad.
1,9K