🚨 NuRL: Cutucando os limites do raciocínio LLM
O GRPO melhora o raciocínio do LLM, mas muitas vezes dentro da "zona de conforto" do modelo: amostras duras (com 0% de taxa de aprovação) permanecem insolúveis e contribuem com zero sinais de aprendizado. No NuRL, mostramos que "cutucar" o LLM com dicas autogeradas expande efetivamente os ganhos consistentes da zona 👉de aprendizado do modelo em pass@1 em 6 benchmarks com 3 modelos e aumenta pass@1024 em tarefas desafiadoras!
Principais conclusões:
1⃣O GRPO não pode aprender com problemas que o modelo nunca resolve corretamente, mas o NuRL usa "dicas" autogeradas para tornar os problemas difíceis que podem ser aprendidos
2⃣Dicas abstratas e de alto nível funcionam melhor - revelar muito sobre a resposta pode realmente prejudicar o desempenho!
3⃣O NuRL melhora o desempenho em 6 benchmarks e 3 modelos (+0,8-1,8% em relação ao GRPO), enquanto usa menos implementações durante o treinamento
4⃣O NuRL funciona com dicas autogeradas (nenhum modelo externo necessário) e mostra ganhos maiores quando combinado com o dimensionamento de tempo de teste
5⃣O NuRL aumenta o limite superior: aumenta o pass@1024 em até +7,6% em conjuntos de dados desafiadores (por exemplo, GPQA, Date Understanding)
🧵