#PaperADay 14 2022: AYRİK DÜNYA MODELLERİ İLE ATARI'NIN MASTERINGI (DreamerV2) DreamerV1 çoğunlukla sürekli kontrol görevlerine odaklanmıştı, ancak aynı zamanda Atari oyunlarının ve DMLab görevlerinin temel oynanışını da gösterdi. DreamerV2, modeli geliştirerek 55 oyunluk Atari paketinde son teknoloji performansını sağladı ve ayrıca daha zor insansı yürüyüş sürekli kontrol görevini çözdü. Bu tamamen bir mühendislik makalesi ve ben buradayım! Ek C'de, performansın artmasına yol açan değişiklikleri özetliyorlar ve ayrıca (makalelerde çok nadirdir!) denedikleri ama işe yaramayan şeylerin bir listesini sunuyorlar. Algoritmalar, Yunan harfleri yerine isimlerle gerçek kodla gösterilir. Dikkat çekici olan bir nokta, giriş olarak sadece 64x64 gri ölçekli görüntüler kullanıyorlar ve bunlar DQN'nin kullandığı yaygın 84x84 çözünürlükten küçültülmüş, yani kaynak olarak mükemmel bir 64x64 görüntü bile değil. Bu tür iyi puanlar için çok bulanık girdiler. 128x128xRGB görüntüleri ekstra konv katmanla kullanmanın performansı mı artıracağını ya da ekstra detayların dünya modelinin eğitilmesini zorlaştırıp zorlamayacağını merak ediyorum. En büyük değişiklikleri, sadece 32 ortalama/var çifti olan VAE tarzı gauss latentlerini kategorik değişkenlerle değiştirmekti: 32 kategoriden 32 değişken. Bunun neden bu kadar iyi olduğuna dair kesin bir teorileri yok, ancak birkaç teori sunuyorlar. Daha fazla Gaussian'ı daha büyük kategorik çıktılarla karşılaştırmak ilginç olurdu. Diğer büyük algoritmik değişiklik ise "KL dengeleme" idi; yani önceki ve arka ağırlıklar için farklı bir öğrenme hızı kullanmak, böylece tahmin cihazı, temsilden daha hızlı çalışır. Ortak optimizasyon V1 için sorunlu görünüyordu. DreamerV1 keşifte zorlanıyordu ve stokastik eylem politikasının üstüne epsilon-random bir eylem vardı. V2'nin geliştirilmiş düzenleme ve dinamik modeli, ekstra rastgeleliği bırakıp sadece politikaya güvenmelerini sağlıyor. KL kaybı ve eğitim kurulumunda sürekli kontrol ile ayrık Atari kontrol görevleri arasında önemli değişiklikler yapıyorlar. Ayrıca modelleri ölçeklendirdiler ve her yerde ELU aktivasyonu kullandılar. Atari değerlendirme protokolü iyi: Yapışkan eylemlerle tam bir aksiyon alanı. Skorlar o kadar yüksek ki yeni bir ölçüt öneriyorlar: "kırpılmış rekor ortalaması" puanları – insan dünya rekoruna normalleştirin, eğer rekor bunun üzerindeyse kırpıltı, sonra tüm oyunların ortalamasını alın. Tarihi Atari RL sonuçları, başlangıçta rastgele kişiler, sonra profesyonel oyuncular olan "insan" puanlarıyla karşılaştırıldı; ancak 200M çerçeve rejiminde güçlü ajanlar için bu kısaltılmış rekor metrik haklı. Eğitim sırasında, 200 milyondan fazla gerçek ortam çerçevesi veya 4 action_repeat 50 milyon aksiyon seçimi hayal edildi; bu da modelsiz bir ajanın deneyiminden neredeyse 10 kat daha fazla. Gerçek ortam deneyimi, her biri 50 adımdan oluşan 50 dizilik gruplar halinde eğitiliyor. Diziler bölüm sınırlarını aşmamak için sınırlandırılmıştır. Politika ve değer fonksiyonları eğitilirken, hayali dizileri 15 adım boyunca yayımlanır. Değerler MSE tarafından eğitilmiştir, kategorik değildir. Geleneksel bir değer hedef ağı kullanılır ve her 100 gradyan adımda güncellenir.