Últimas noticias del blog de investigación de Tencent HY: Conectando la infraestructura de LLM y el desarrollo de algoritmos. 🚀   Estamos liberando GradLoc: una herramienta de diagnóstico de caja blanca que rastrea los picos de gradiente hasta el token culpable exacto en O(log N) tiempo.   Escalar RLVR ya no tiene que ser una batalla contra los picos de gradiente "caja negra". Pasando de la prueba y error heurística a diagnósticos de ingeniería deterministas.   Blog: GitHub:
🔍 De picos globales a tokens individuales   El monitoreo estándar solo te dice cuándo ocurre un pico de gradiente. GradLoc te dice dónde. Usando búsqueda binaria distribuida, aísla el token específico que causa el pico con un costo amortizado despreciable. Es un depurador "siempre activo" para el entrenamiento de LLM.
💡 Nuevo Modo de Colapso Descubierto   No siempre se trata de "datos sucios" o "desajuste entre entrenamiento e inferencia." GradLoc reveló la Heterogeneidad de Gradientes por Capa: los tokens pueden tener razones de Muestreo de Importancia (IS) "seguras" pero aún así causar que capas específicas exploten mientras otras permanecen estables. El recorte global estándar es una herramienta demasiado burda para esto.
🛡️ La Solución: LayerClip   Para abordar la Heterogeneidad del Gradiente por Capas, proponemos el Recorte de Gradiente por Capas. En lugar de un límite global uniforme, LayerClip aplica restricciones adaptativas basadas en estadísticas locales de la capa. Este control detallado estabiliza el entrenamiento de RLVR donde los métodos estándar fallan.
🚀 Trabajo Futuro   RLVR necesita una mejor observabilidad de ingeniería para una comprensión y análisis más profundos. Estamos liberando GradLoc como código abierto para reducir la barrera para diagnósticos detallados. Esperamos que esto ayude a la comunidad a mirar dentro de la "caja negra" de la ingeniería y avanzar hacia la optimización desde los primeros principios.
1,91K