RL tabanlı LLM eğitimi için bir sonraki sınır: > Genelleştirme Gerçek Düzen ortamları, LLM'lerin herhangi bir belirli görevde yetkin hale gelmesine yardımcı olabilir. Bir sonraki atılım, herhangi bir göreve genelleştirilebilen bir RL yöntemidir. Evrensel bir doğrulayıcı. Pavel: "Asıl soru genelleme ve sadece kıyasları maksimize etmekle kalmayıp, gerçek iyileştirmelere yol açan bir şeyi nasıl yapacağınız. Ve bu çok zor bir soru. Bence makine öğreniminin her zaman zor sorusu bu olmuştur."