La prochaine frontière pour l'entraînement des LLM basé sur le RL : > Généralisation Les environnements RL peuvent aider les LLM à devenir compétents dans n'importe quelle tâche spécifique. La prochaine avancée est une méthode RL qui peut se généraliser à n'importe quelle tâche. Un vérificateur universel. Pavel : "La question majeure est la généralisation et comment faire quelque chose qui ne se contente pas de maximiser les benchmarks, mais qui conduit réellement à de véritables améliorations. Et c'est une question très difficile. Cela a toujours été la question difficile, je pense, de l'apprentissage automatique."