🚨 NuRL: Împingerea limitelor raționamentului LLM
GRPO îmbunătățește raționamentul LLM, dar adesea în "zona de confort" a modelului: eșantioanele dure (cu 0% rată de promovare) rămân de nerezolvat și contribuie cu zero semnale de învățare. În NuRL, arătăm că "împingerea" LLM cu sugestii auto-generate extinde eficient zona 👉de învățare a modelului câștiguri consistente în pass@1 pe 6 benchmark-uri cu 3 modele și crește pass@1024 la sarcini dificile!
Concluzii cheie:
1⃣GRPO nu poate învăța din probleme pe care modelul nu le rezolvă niciodată corect, dar NuRL folosește "indicii" auto-generate pentru a face problemele dificile ușor de învățat
2⃣Sugestiile abstracte, de nivel înalt, funcționează cel mai bine – dezvăluirea prea multor despre răspuns poate afecta de fapt performanța!
3⃣NuRL îmbunătățește performanța în 6 benchmark-uri și 3 modele (+0,8-1,8% față de GRPO), folosind în același timp mai puține lansări în timpul instruirii
4⃣NuRL funcționează cu sugestii auto-generate (nu este nevoie de model extern) și prezintă câștiguri mai mari atunci când este combinat cu scalarea timpului de testare
5⃣NuRL crește limita superioară: crește pass@1024 până la +7,6% pe seturile de date dificile (de exemplu, GPQA, Date Understanding)
🧵