🚨 NuRL: Die Grenzen des LLM-Reasonings verschieben
GRPO verbessert das LLM-Reasoning, jedoch oft innerhalb der "Komfortzone" des Modells: schwierige Beispiele (mit 0% Bestehensquote) bleiben unlösbar und tragen null Lernsignale bei. In NuRL zeigen wir, dass das "Nudging" des LLM mit selbstgenerierten Hinweisen effektiv die Lernzone des Modells erweitert 👉 konsistente Gewinne in pass@1 bei 6 Benchmarks mit 3 Modellen und hebt pass@1024 bei herausfordernden Aufgaben an!
Wichtige Erkenntnisse:
1⃣GRPO kann nicht aus Problemen lernen, die das Modell nie korrekt löst, aber NuRL verwendet selbstgenerierte "Hinweise", um schwierige Probleme lernbar zu machen.
2⃣Abstrakte, hochrangige Hinweise funktionieren am besten – zu viel über die Antwort zu verraten, kann die Leistung tatsächlich beeinträchtigen!
3⃣NuRL verbessert die Leistung über 6 Benchmarks und 3 Modelle (+0,8-1,8% gegenüber GRPO), während weniger Rollouts während des Trainings verwendet werden.
4⃣NuRL funktioniert mit selbstgenerierten Hinweisen (kein externes Modell erforderlich) und zeigt größere Gewinne, wenn es mit Testzeit-Skalierung kombiniert wird.
5⃣NuRL hebt die obere Grenze an: Es steigert pass@1024 um bis zu +7,6% bei herausfordernden Datensätzen (z.B. GPQA, Date Understanding)
🧵