Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Últimas do blog da Tencent HY Research: Ligando a infraestrutura LLM e o desenvolvimento de algoritmos. 🚀
Estamos a abrir o código do GradLoc: Uma ferramenta de diagnóstico de caixa branca que rastreia picos de gradiente até ao token culpado exato em O(log N) tempo.
Escalar o RLVR já não tem que ser uma batalha contra picos de gradiente "caixa-preta". Passando de diagnósticos heurísticos de tentativa e erro para diagnósticos de engenharia determinísticos.
Blog:
GitHub:


🔍 De Picos Globais a Tokens Únicos
O monitoramento padrão apenas informa quando ocorre um pico de gradiente. O GradLoc diz onde. Usando busca binária distribuída, isola o token específico que causa o pico com um sobrecusto amortizado negligenciável. É um depurador "sempre ativo" para o treinamento de LLM.
💡 Novo Modo de Colapso Descoberto
Nem sempre é "dados sujos" ou "desajuste entre treino e inferência." O GradLoc revelou a Heterogeneidade de Gradiente por Camada: os Tokens podem ter razões de Amostragem de Importância (IS) "seguras" mas ainda causar a explosão de camadas específicas enquanto outras permanecem estáveis. O recorte global padrão é uma ferramenta demasiado brusca para isso.
🛡️ A Solução: LayerClip
Para abordar a Heterogeneidade do Gradiente em Camadas, propomos o Recorte de Gradiente em Camadas. Em vez de um clamp global uniforme, o LayerClip aplica restrições adaptativas com base nas estatísticas locais da camada. Este controle detalhado estabiliza o treinamento de RLVR onde os métodos padrão falham.
🚀 Trabalho Futuro
A RLVR precisa de uma melhor observabilidade de engenharia para uma compreensão e análise mais profundas. Estamos a abrir o código do GradLoc para reduzir a barreira para diagnósticos detalhados. Esperamos que isso ajude a comunidade a olhar dentro da "caixa preta" da engenharia e a avançar em direção à otimização a partir de princípios fundamentais.
1,83K
Top
Classificação
Favoritos
