Останні новини з блогу Tencent HY Research: Поєднання інфраструктури LLM та розробки алгоритмів. 🚀   Ми відкриваємо GradLoc: діагностичний інструмент білої коробки, який відстежує скачки градієнтів до точного токена винуватця за O(log N) час.   Масштабування RLVR більше не має бути боротьбою з «чорною скринькою» градієнтними стрибками. Перехід від евристичного методу спроб і помилок до детермінованої інженерної діагностики.   Блог: GitHub:
🔍 Від глобальних стрибків до окремих токенів   Стандартний моніторинг показує лише коли відбувається стрибок градієнтів. GradLoc показує, де де. За допомогою розподіленого бінарного пошуку він ізолює конкретний токен, що спричиняє стрибок, з незначними амортизованими накладними витратами. Це «завжди увімкнений» відлагоджувач для навчання LLM.
💡 Виявлено новий режим колапсу   Це не завжди «брудні дані» чи «невідповідність тренувань і висновків». GradLoc розкрив багатошарову градієнтну гетерогенність: токени можуть мати «безпечне» співвідношення важливого вибірки (IS), але все одно спричиняти вибух певних шарів, тоді як інші залишаються стабільними. Стандартне глобальне обрізання — надто грубий інструмент для цього.
🛡️ Рішення: LayerClip   Щоб вирішити питання багатошарової гетерогенності градієнтів, ми пропонуємо шарове градієнтне обрізання. Замість однорідного глобального затиску LayerClip застосовує адаптивні обмеження на основі локальної статистики шарів. Такий тонкий контроль стабілізує навчання RLVR там, де стандартні методи не справляються.
🚀 Майбутня робота   RLVR потребує кращої інженерної спостережуваності для глибшого розуміння та аналізу. Ми відкриваємо GradLoc, щоб знизити бар'єр для детальної діагностики. Сподіваємося, це допоможе спільноті заглянути всередину інженерної «чорної скриньки» і перейти до оптимізації з перших принципів.
1,91K