Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Najnowsze z bloga Tencent HY Research: Łączenie infrastruktury LLM i rozwoju algorytmów. 🚀 Udostępniamy GradLoc: narzędzie diagnostyczne typu white-box, które śledzi skoki gradientu do dokładnego winowajcy tokena w czasie O(log N). Skalowanie RLVR nie musi już być walką z "czarnymi skrzynkami" skoków gradientu. Przechodzimy od heurystycznego prób i błędów do deterministycznej diagnostyki inżynieryjnej. Blog: GitHub:

🔍 Od globalnych szczytów do pojedynczych tokenów Standardowe monitorowanie informuje tylko o tym, kiedy występuje szczyt gradientu. GradLoc mówi, gdzie. Używając rozproszonego wyszukiwania binarnego, izoluje konkretny token powodujący szczyt z znikomym kosztami amortyzowanymi. To "zawsze włączony" debugger do treningu LLM.

💡 Odkryto nowy tryb zapadania się To nie zawsze jest "brudne dane" lub "niedopasowanie treningu do wnioskowania." GradLoc ujawnił Heterogeniczność Gradientu Warstwowego: Tokeny mogą mieć "bezpieczne" wskaźniki Próbkowania Istotności (IS), ale nadal mogą powodować eksplozję w konkretnych warstwach, podczas gdy inne pozostają stabilne. Standardowe globalne przycinanie jest zbyt tępe jako narzędzie do tego.

🛡️ Rozwiązanie: LayerClip Aby poradzić sobie z heterogenicznością gradientów warstwowych, proponujemy przycinanie gradientów warstwowych. Zamiast jednolitego globalnego ograniczenia, LayerClip stosuje adaptacyjne ograniczenia oparte na lokalnych statystykach warstw. Ta precyzyjna kontrola stabilizuje trening RLVR, gdzie standardowe metody zawodzą.

🚀 Przyszła praca RLVR potrzebuje lepszej obserwowalności inżynieryjnej, aby uzyskać głębsze zrozumienie i analizę. Udostępniamy GradLoc jako open-source, aby obniżyć barierę dla szczegółowej diagnostyki. Mamy nadzieję, że to pomoże społeczności zajrzeć do inżynieryjnego "czarnego pudełka" i przejść do optymalizacji na podstawie pierwszych zasad.

1,9K

Najlepsze

Ranking

Ulubione