🚨 NuRL : Pousser les limites du raisonnement LLM
GRPO améliore le raisonnement LLM, mais souvent dans la "zone de confort" du modèle : les échantillons difficiles (avec un taux de réussite de 0 %) restent insolubles et ne contribuent à aucun signal d'apprentissage. Dans NuRL, nous montrons que "pousser" le LLM avec des indices auto-générés élargit efficacement la zone d'apprentissage du modèle 👉 gains constants en pass@1 sur 6 benchmarks avec 3 modèles et augmentation de pass@1024 sur des tâches difficiles !
Points clés :
1⃣GRPO ne peut pas apprendre des problèmes que le modèle ne résout jamais correctement, mais NuRL utilise des "indices" auto-générés pour rendre les problèmes difficiles apprenables.
2⃣Des indices abstraits et de haut niveau fonctionnent le mieux : révéler trop d'informations sur la réponse peut en fait nuire à la performance !
3⃣NuRL améliore la performance sur 6 benchmarks et 3 modèles (+0,8-1,8 % par rapport à GRPO), tout en utilisant moins de rollouts pendant l'entraînement.
4⃣NuRL fonctionne avec des indices auto-générés (aucun modèle externe nécessaire) et montre des gains plus importants lorsqu'il est combiné avec un redimensionnement en temps de test.
5⃣NuRL élève la limite supérieure : il augmente pass@1024 jusqu'à +7,6 % sur des ensembles de données difficiles (par exemple, GPQA, Compréhension des dates)
🧵