Ultime notizie dal blog di Tencent HY Research: Colmare il divario tra l'infrastruttura LLM e lo sviluppo degli algoritmi. 🚀   Stiamo rendendo open-source GradLoc: uno strumento diagnostico a scatola bianca che traccia i picchi di gradiente fino al token colpevole esatto in O(log N) tempo.   Scalare RLVR non deve più essere una battaglia contro i picchi di gradiente "a scatola nera". Passando da tentativi ed errori euristici a diagnosi ingegneristiche deterministiche.   Blog: GitHub:
🔍 Da picchi globali a singoli token   Il monitoraggio standard ti dice solo quando si verifica un picco di gradiente. GradLoc ti dice dove. Utilizzando una ricerca binaria distribuita, isola il token specifico che causa il picco con un sovraccarico ammortizzato trascurabile. È un debugger "sempre attivo" per l'addestramento degli LLM.
💡 Nuovo Modo di Collasso Scoperto   Non si tratta sempre di "dati sporchi" o di "disallineamento tra addestramento e inferenza." GradLoc ha rivelato l'Eterogeneità del Gradiente Layerwise: i Token possono avere rapporti di Campionamento di Importanza (IS) "sicuri" ma causare comunque l'esplosione di specifici strati mentre altri rimangono stabili. Il clipping globale standard è uno strumento troppo impreciso per questo.
🛡️ La Soluzione: LayerClip   Per affrontare l'Eterogeneità del Gradiente Layerwise, proponiamo il Clipping del Gradiente Layerwise. Invece di un clamp globale uniforme, LayerClip applica vincoli adattivi basati sulle statistiche locali dei layer. Questo controllo dettagliato stabilizza l'addestramento RLVR dove i metodi standard falliscono.
🚀 Lavoro Futuro   RLVR ha bisogno di una migliore osservabilità ingegneristica per una comprensione e un'analisi più profonde. Stiamo rendendo GradLoc open-source per abbassare la barriera per diagnosi dettagliate. Speriamo che questo aiuti la comunità a guardare dentro la "scatola nera" ingegneristica e a muoversi verso l'ottimizzazione a partire dai principi fondamentali.
1,9K