Neueste von Tencent HY Research Blog: Brücke zwischen LLM-Infrastruktur und Algorithmusentwicklung. 🚀   Wir machen GradLoc Open Source: Ein White-Box-Diagnosetool, das Gradienten-Spitzen in O(log N) Zeit dem genauen Übeltäter-Token zuordnet.   Das Skalieren von RLVR muss nicht länger ein Kampf gegen "Black-Box"-Gradienten-Spitzen sein. Der Übergang von heuristischen Versuchen und Irrtümern zu deterministischen Ingenieurdiagnosen.   Blog: GitHub:
🔍 Von globalen Spitzen zu einzelnen Tokens Standardüberwachung sagt Ihnen nur, wann ein Gradientenpeak auftritt. GradLoc sagt Ihnen, wo. Mit einer verteilten binären Suche isoliert es das spezifische Token, das die Spitze verursacht, mit vernachlässigbarem amortisiertem Overhead. Es ist ein "immer aktiver" Debugger für das Training von LLMs.
💡 Neuer Kollapsmodus entdeckt Es sind nicht immer "schmutzige Daten" oder "Training-Inferenz-Mismatch." GradLoc hat die schichtweise Gradientheterogenität offenbart: Tokens können "sichere" Importance Sampling (IS) Verhältnisse haben, aber dennoch dazu führen, dass bestimmte Schichten explodieren, während andere stabil bleiben. Standardmäßiges globales Clipping ist ein zu grobes Werkzeug dafür.
🛡️ Die Lösung: LayerClip   Um die schichtweise Gradientenhomo­genität anzugehen, schlagen wir Layerwise Gradient Clipping vor. Anstelle eines einheitlichen globalen Limits wendet LayerClip adaptive Einschränkungen basierend auf lokalen Schichtstatistiken an. Diese feinkörnige Kontrolle stabilisiert das RLVR-Training, wo Standardmethoden versagen.
🚀 Zukünftige Arbeit   RLVR benötigt eine bessere Ingenieurobservierbarkeit für ein tieferes Verständnis und Analyse. Wir machen GradLoc Open Source, um die Hürden für feingranulare Diagnosen zu senken. Wir hoffen, dass dies der Community hilft, in die Ingenieur-"Black Box" zu schauen und sich von den Grundprinzipien zur Optimierung zu bewegen.
1,89K