🚨 NuRL: De Grenzen van LLM Redenering Verleggen
GRPO verbetert LLM redenering, maar vaak binnen de "comfortzone" van het model: moeilijke voorbeelden (met 0% slaagpercentage) blijven onoplosbaar en dragen niet bij aan leer signalen. In NuRL tonen we aan dat het "duwen" van de LLM met zelfgegenereerde hints effectief de leerzone van het model uitbreidt 👉 consistente winst in pass@1 op 6 benchmarks met 3 modellen & verhoogt pass@1024 op uitdagende taken!
Belangrijkste punten:
1⃣GRPO kan niet leren van problemen die het model nooit correct oplost, maar NuRL gebruikt zelfgegenereerde "hints" om moeilijke problemen leerbaar te maken
2⃣Abstracte, hoog-niveau hints werken het beste—te veel onthullen over het antwoord kan de prestaties daadwerkelijk schaden!
3⃣NuRL verbetert de prestaties over 6 benchmarks en 3 modellen (+0.8-1.8% ten opzichte van GRPO), terwijl er minder rollouts tijdens de training worden gebruikt
4⃣NuRL werkt met zelfgegenereerde hints (geen extern model nodig) en toont grotere winsten wanneer gecombineerd met test-tijd schaling
5⃣NuRL verhoogt de bovengrens: het verhoogt pass@1024 met tot +7.6% op uitdagende datasets (bijv. GPQA, Date Understanding)
🧵