#PaperADay 12 2019: Piksellerden Planlama İçin Gizli Dinamikleri Öğrenmek (PlaNet) Bu, sırayla okuyacağım Dreamer 1/2/3/4 serisinin öncüsüydü. Planlama, tam olarak belirlenmiş geçiş ve ödül dinamiklerine sahip görevlerde, örneğin masa oyunlarında yaygındır, ancak "oyunun kurallarını" öğrenmek ve aynı zamanda performansınızı geliştirmeye çalışırken çok daha zordur; özellikle de tam piksellerden yapmaya çalışırken, mükemmel gözlemlenen durum özellikleri yerine. Bazen yarı şaka bir şekilde "planlama"nın aslında böyle düşük seviyelerde bir şey olmayabileceğini savunuyorum ve ilgili deneyimler hafızamdan çağrıldığında ve bunlarda kendi eğitimi alındığında planlamanın mevcut politika kararında değişiklikler yaratması gibi geliyor. Klasik bir Atari makalesi var; bu makalede tekrar oynatma tamponlarının *bir tür parametrik olmayan dünya modeli* olduğunu savunur. Bu makale, güçlü modelsiz algoritmalara "yakın" performans gösteriyor, ancak gerçek dünya deneyimi çok daha az olur, çünkü işin çoğu planlama alanında gerçekleşiyor. Çoğu zaman, model tabanlı yöntemler, daha basit modelsiz algoritmalarla eşitliğe ulaşmak için mücadele etmek zorunda kalır ve bu Atari100k kıyaslamasında bugün de devam ediyor. Bu, durum geçişi ve ödül modeli olan klasik model tabanlı bir sistemdir. Geçiş modellerinin en büyük sorunu genellikle hataların hızla birikmesidir, bu yüzden geleceğe çok fazla adım öngöremezsiniz. Geçiş modelleri bir durum artı bir eylemi alır ve bir sonraki durumu ve eylemin sonucunda elde edilen ödülü tahmin eder. Makalenin temel bulgularından biri, deterministik bir geçiş modeli öğrenmeye çalışmanın temelde başarısız olduğuydu. Stokastik bir model eğitilib bilebiliyordu, ancak modelde hem deterministik hem de stokastik hesaplamalar birleştirildiğinde performans arttı. Ek H'deki video tahmin karelerine yakından bakmak ilginçtir: deterministik GRU geçiş modeli bir karedeki grafiki kaybettiğinde, sonrasında her şey bozuk kalırken, stokastik model bir karede anlamsız bir şeye dönüşebilir, sonra tekrar mantıklı bir şeye dönüşebilir. Bunu tahmin edemezdim. Tam birleşik modelleri tüm proje boyunca iyi tahminler verdi. Modelsiz RL gibi politika veya değer ağı yoktur. Eylemler, modellenmiş geçiş ve ödül fonksiyonları kullanılarak bir dizi denenerek seçilir ve en iyi sonuçları veren eylem seçilir. Seçilen her eylem için binlerce eylem dizisi değerlendirilir, ancak kompakt gizli vektörler üzerinde çalıştıkları için bu nispeten verimlidir. Çapraz Entropi Yöntemi (CEM), geçiş modelleriyle birden fazla adım önceden planlamak için kullanılır. Bu, sürekli eylem uzayları veya geleceğe birkaç modellenmiş adımdan fazlası için sezgisel olmalıdır. Durum ağına girdi, 64x64 RGB gözlemidir (GLOW gibi 5 bite kuantize edilmiştir; Bunun neden gerekli olduğunu tam anlamıyorum). Eğitim sırasında, bir durumdan piksel gözlemine geriye gitmeye çalışan bir gözlem modeli vardır. Durum görüntüden küçük olduğunda bunu mükemmel yapmak genellikle imkansızdır, ancak denemek, duruma ne koyulacağına dair zengin bir geri bildirim sinyali sağlar. Bu, eylem karar sürecinin hiçbir bölümü için kullanılmaz, sadece bir eğitim yardımcıdır. Göreve bağlı olarak 2 ila 8 numara tekrarı. Latent uzayda düzenli bir yapı olarak gizli bir şekilde aşma, yinelenmiş tek ve çok adımlı tahminleri teşvik eder.