Tanrım, en iyi zeka, RL sakinleri çok çalışıyor Sürekli öğrenmedeki büyük bir darboğaz, görev alanları arasında yöntemleri karşılaştırmak ve değerlendirmek için genel bir yolumuzun olmamasıdır Bence @carnot_cyclist bunu çözmüş olabilir
Spoiler vermeyeceğim çünkü onun bununla ilgili harika bir blog yazısı yazmasını istiyorum. Ama vay canına, bu gerçekten çok temiz bir formalizm, birçok farklı şey için kullanılabiliyor ve bunu göstermek için güzel erken deneme sonuçları da var
138