RL, şirkete özgü modelleri benzersiz çalışmaları ve verileri üzerine eğitmek için güçlü bir mekanizmadır. Applied Compute'da yaptığımız şey bu. Önemli bir zorluk, gerçek hayatı verimli hale getirmek, çünkü koşuların hızlı (günlerde teslim edilmesi), ucuz (ölçeklenebilir birim ekonomisi) ve öngörülebilir (sadece hızlı değil, güvenilir derecede hızlı olması gerekiyor). İşte bazı çıkarımlar: • Senkron Gerçek Düzen zaman ve hesaplama açısından boşa harcamaktır. • Asenkron RL daha verimlidir ancak bu durum durantlık getirir ve bu da öğrenme kararsızlıklarına yol açar. • Modelleme ve simülasyonlar, hangi konfigürasyonun optimal verimliliğe yol açtığını analitik olarak belirlemeye yardımcı olabilir. Bu, deneme çalışmalarında pahalı hesaplama döngülerini harcamadan eğitim konfigürasyonlarını hızlıca prototip yapmamıza olanak tanır. İki kurucu ortağımız, @rhythmrg ve @lindensli, yakın zamanda @aiDotEngineer'de bu araştırmanın bazı kısımlarını ele aldı ve odak olarak şu alt probleme odaklandı: maksimum durantlık ve hesaplama bütçesi göz önüne alındığında RL yapmanın en yüksek verimliliği nedir?