🚨 NuRL: Nudging av grensene for LLM-resonnement
GRPO forbedrer LLM-resonnementet, men ofte innenfor modellens "komfortsone": harde prøver (med 0 % bestått rate) forblir uløselige og bidrar med null læringssignaler. I NuRL viser vi at å "dytte" LLM med selvgenererte hint effektivt utvider modellens læringssone 👉konsekvente gevinster i pass@1 på 6 benchmarks med 3 modeller og øker pass@1024 på utfordrende oppgaver!
Viktige takeaways:
1⃣GRPO kan ikke lære av problemer modellen aldri løser riktig, men NuRL bruker selvgenererte "hint" for å gjøre vanskelige problemer lærebare
2⃣Abstrakte hint på høyt nivå fungerer best – å avsløre for mye om svaret kan faktisk skade ytelsen!
3⃣NuRL forbedrer ytelsen på tvers av 6 benchmarks og 3 modeller (+0,8-1,8 % over GRPO), samtidig som det bruker færre utrullinger under trening
4⃣NuRL fungerer med selvgenererte hint (ingen ekstern modell nødvendig) og viser større gevinster når den kombineres med skalering av testtid
5⃣NuRL hever den øvre grensen: den øker pass@1024 opptil +7,6 % på utfordrende datasett (f.eks.
🧵