🚨 NuRL: Nudging gränserna för LLM resonemang
GRPO förbättrar LLM-resonemanget, men ofta inom modellens "komfortzon": hårda prover (med 0 % godkänd frekvens) förblir olösliga och bidrar inte med några inlärningssignaler. I NuRL visar vi att "knuffa" LLM med självgenererade tips effektivt utökar modellens inlärningszon 👉konsekventa vinster i pass@1 på 6 riktmärken med 3 modeller och höjer pass@1024 på utmanande uppgifter!
Viktigt att ta med sig:
1⃣GRPO kan inte lära sig av problem som modellen aldrig löser korrekt, men NuRL använder självgenererade "tips" för att göra svåra problem inlärda
2⃣Abstrakta tips på hög nivå fungerar bäst – att avslöja för mycket om svaret kan faktiskt skada prestandan!
3⃣NuRL förbättrar prestandan i 6 benchmarks och 3 modeller (+0,8-1,8 % över GRPO), samtidigt som färre utrullningar används under träningen
4⃣NuRL fungerar med självgenererade tips (ingen extern modell behövs) och visar större vinster i kombination med skalning vid testtid
5⃣NuRL höjer den övre gränsen: den ökar pass@1024 upp till +7,6 % på utmanande datamängder (t.ex. GPQA, Date Understanding)
🧵