Biên giới tiếp theo cho việc đào tạo LLM dựa trên RL: > Khái quát hóa Các môi trường RL có thể giúp LLM trở nên thành thạo trong bất kỳ nhiệm vụ cụ thể nào. Đột phá tiếp theo là một phương pháp RL có thể khái quát hóa cho bất kỳ nhiệm vụ nào. Một trình xác minh toàn cầu. Pavel: "Câu hỏi chính là khái quát hóa và làm thế nào để bạn tạo ra một cái gì đó không chỉ đạt điểm tối đa trong các tiêu chuẩn, mà thực sự dẫn đến những cải tiến thực sự. Và đó là một câu hỏi rất khó. Tôi nghĩ đó luôn là câu hỏi khó trong học máy."