🚨 NuRL: Przesuwanie granic rozumowania LLM
GRPO poprawia rozumowanie LLM, ale często w "strefie komfortu" modelu: trudne próbki (z 0% wskaźnikiem zdawalności) pozostają nierozwiązywalne i nie dostarczają żadnych sygnałów do nauki. W NuRL pokazujemy, że "naciskanie" LLM za pomocą samodzielnie generowanych wskazówek skutecznie rozszerza strefę nauki modelu 👉 stałe zyski w pass@1 na 6 benchmarkach z 3 modelami i zwiększa pass@1024 w trudnych zadaniach!
Kluczowe wnioski:
1⃣GRPO nie może uczyć się z problemów, których model nigdy nie rozwiązuje poprawnie, ale NuRL wykorzystuje samodzielnie generowane "wskazówki", aby uczynić trudne problemy możliwymi do nauki
2⃣Abstrakcyjne, wysokopoziomowe wskazówki działają najlepiej—ujawnienie zbyt wielu informacji o odpowiedzi może w rzeczywistości zaszkodzić wydajności!
3⃣NuRL poprawia wydajność w 6 benchmarkach i 3 modelach (+0.8-1.8% w porównaniu do GRPO), przy użyciu mniejszej liczby rollouts podczas treningu
4⃣NuRL działa z samodzielnie generowanymi wskazówkami (nie potrzebny zewnętrzny model) i pokazuje większe zyski, gdy jest połączony z skalowaniem w czasie testu
5⃣NuRL podnosi górny limit: zwiększa pass@1024 o +7.6% na trudnych zbiorach danych (np. GPQA, Zrozumienie daty)
🧵