テンセントHY Researchブログの最新情報:LLMインフラとアルゴリズム開発の橋渡し。🚀   私たちはGradLocをオープンソース化しています:勾配スパイクをO(log N)時間で正確な原因トークンに追跡するホワイトボックス診断ツールです。   RLVRのスケーリングはもはや「ブラックボックス」グラデーションスパイクとの戦いではありません。ヒューリスティックな試行錯誤から決定論的な工学的診断へと移行しています。   ブログ: GitHub:
🔍 グローバルスパイクから単一トークンへ   標準的なモニタリングは勾配の急上昇が起きた時だけを教えてくれます。GradLocがどこか教えてくれます。分散型二分探索を用いて、スパイクを引き起こした特定のトークンを、ほとんど無視できるほどの償却オーバーヘッドで分離します。これはLLMトレーニング用の「常時稼働」デバッガです。
💡 新たな崩壊モードの発見   必ずしも「汚れたデータ」や「トレーニングと推論の不一致」というわけではありません。GradLocはレイヤーごとの勾配異質性を明らかにしました:トークンは「安全な」重要度サンプリング(IS)比率を持ちながらも、特定の層が爆発的に爆発し、他の層は安定しています。標準的なグローバルクリッピングは単純すぎるツールです。
🛡️ 解決策:LayerClip   レイヤーズグラデーションの異質性に対処するために、レイヤーズグラデーションクリッピングを提案します。LayerClipは均一なグローバルクランプの代わりに、ローカルレイヤー統計に基づく適応制約を適用します。この細かい制御は、標準的な方法が失敗する箇所でRLVRトレーニングを安定化させます。
🚀 今後の活動   RLVRはより深い理解と解析のために、より良い工学的観測性が必要です。私たちはGradLocをオープンソース化し、細かい診断の障壁を下げています。この情報がコミュニティがエンジニアリングの「ブラックボックス」の内側を見つめ、基本原理から最適化へと進む助けになることを願っています。
1.83K