Dernières nouvelles du blog de recherche HY de Tencent : Relier l'infrastructure LLM et le développement d'algorithmes. 🚀   Nous open-sourçons GradLoc : un outil de diagnostic en boîte blanche qui trace les pics de gradient jusqu'au token responsable exact en O(log N) temps.   L'échelle de RLVR ne doit plus être une bataille contre les pics de gradient "boîte noire". Passer d'un essai-erreur heuristique à des diagnostics d'ingénierie déterministes.   Blog : GitHub :
🔍 Des pics globaux aux jetons uniques   La surveillance standard ne vous dit que quand un pic de gradient se produit. GradLoc vous indique où. En utilisant une recherche binaire distribuée, il isole le jeton spécifique à l'origine du pic avec un surcoût amorti négligeable. C'est un débogueur "toujours actif" pour l'entraînement des LLM.
💡 Nouveau mode d'effondrement découvert   Ce n'est pas toujours des "données sales" ou un "mismatch entre l'entraînement et l'inférence." GradLoc a révélé l'hétérogénéité des gradients par couche : les tokens peuvent avoir des ratios d'échantillonnage d'importance (IS) "sûrs" mais provoquer l'explosion de couches spécifiques tandis que d'autres restent stables. Le clipping global standard est un outil trop grossier pour cela.
🛡️ La solution : LayerClip   Pour traiter l'hétérogénéité des gradients couche par couche, nous proposons le Layerwise Gradient Clipping. Au lieu d'un clamp global uniforme, LayerClip applique des contraintes adaptatives basées sur les statistiques locales des couches. Ce contrôle précis stabilise l'entraînement RLVR là où les méthodes standard échouent.
🚀 Travail Futur   RLVR a besoin d'une meilleure observabilité en ingénierie pour une compréhension et une analyse plus approfondies. Nous open-sourçons GradLoc pour abaisser la barrière aux diagnostics fins. Nous espérons que cela aidera la communauté à regarder à l'intérieur de la "boîte noire" de l'ingénierie et à avancer vers l'optimisation à partir des premiers principes.
1,91K