La prossima frontiera per l'addestramento di LLM basato su RL: > Generalizzazione Gli ambienti RL possono aiutare gli LLM a diventare competenti in qualsiasi compito specifico. La prossima innovazione è un metodo RL che può generalizzare a qualsiasi compito. Un verificatore universale. Pavel: "La domanda principale è la generalizzazione e come fare qualcosa che non si limita a massimizzare i benchmark, ma porta effettivamente a miglioramenti genuini. E questa è una domanda molto difficile. È sempre stata la domanda difficile, penso, dell'apprendimento automatico."