.@willccbb (Araştırma Lideri, Prime Intellect) RL ortamlarının gerçekte nasıl çalıştığı hakkında: "Bir çevre esasen bir değerlendirmedir. Giriş görevleriniz, bir koşum takımınız var ve sonunda modelinizin veya aracınızın nasıl performans gösterdiğini puanlıyor. Hem değerlendirme hem de RL eğitimi için kullandığımız kurulum budur." Geleceğin sadece "dev bir kümede 100.000 GPU elde etmek" ile ilgili olmadığını da ekliyor.