Perbatasan berikutnya untuk pelatihan LLM berbasis RL: > Generalisasi Lingkungan RL dapat membantu LLM menjadi mahir dalam tugas tertentu. Terobosan selanjutnya adalah metode RL yang dapat menggeneralisasi ke tugas apa pun. Verifikator universal. Pavel: "Pertanyaan utamanya adalah generalisasi dan bagaimana Anda membuat sesuatu yang tidak hanya memaksimalkan tolok ukur, tetapi sebenarnya mengarah pada peningkatan yang nyata. Dan itu pertanyaan yang sangat sulit. Itu selalu menjadi pertanyaan sulit, menurut saya, tentang pembelajaran mesin."