Următoarea frontieră pentru instruirea LLM bazată pe RL: > Generalizare Mediile RL pot ajuta LLM-urile să devină competente în orice sarcină specifică. Următorul progres este o metodă RL care se poate generaliza la orice sarcină. Un verificator universal. Pavel: "Întrebarea principală este generalizarea și cum faci ceva care nu doar să atingă standardele maxime, ci să ducă de fapt la îmbunătățiri reale. Și aceasta este o întrebare foarte dificilă. Aceasta a fost mereu întrebarea dificilă, cred, despre învățarea automată."