#PaperADay 12 2019: Mempelajari Dinamika Laten untuk Perencanaan dari Piksel (PlaNet) Ini adalah cikal bakal seri agen / makalah RL Dreamer 1/2/3/4, yang akan saya baca secara berurutan. Perencanaan adalah hal yang umum dalam tugas dengan dinamika transisi dan hadiah yang sepenuhnya ditentukan seperti permainan papan, tetapi jauh lebih menantang ketika Anda harus mempelajari "aturan main" pada saat yang sama Anda mencoba meningkatkan kinerja Anda, terutama saat mencoba melakukannya dari piksel mentah alih-alih fitur status yang diamati dengan sempurna. Saya kadang-kadang setengah bercanda membela posisi bahwa "perencanaan" mungkin sebenarnya bukan sesuatu, setidaknya pada tingkat rendah seperti ini, dan rasanya seperti perencanaan ketika pengalaman yang relevan dipanggil dari ingatan dan pelatihan bootstrap pada mereka menghasilkan perubahan pada keputusan kebijakan saat ini. Ada makalah Atari klasik yang membuat kasus bahwa buffer pemutaran ulang * adalah* semacam model dunia non-parametrik. Makalah ini mendapatkan kinerja puncak "mendekati" algoritme bebas model yang kuat, tetapi dengan pengalaman dunia nyata yang jauh lebih sedikit yang diperlukan, karena sebagian besar pekerjaan terjadi dalam perencanaan. Seringkali, metode berbasis model harus berjuang untuk mencapai kesetaraan dengan algoritme bebas model yang lebih sederhana, dan itu masih terjadi dengan benchmark Atari100k saat ini. Ini adalah sistem berbasis model klasik dengan transisi status dan model hadiah. Masalah terbesar dengan model transisi biasanya adalah kesalahan terakumulasi dengan cepat, sehingga Anda tidak dapat memprediksi banyak langkah ke masa depan. Model transisi mengambil status ditambah tindakan, dan memprediksi status berikutnya dan imbalan yang dihasilkan dari mengambil tindakan. Salah satu temuan utama dari makalah ini adalah bahwa mencoba mempelajari model transisi deterministik pada dasarnya gagal. Model stokastik dapat dilatih, tetapi kinerja meningkat ketika mereka menggabungkan perhitungan deterministik dan stokastik dalam model. Melihat lebih dekat pada bingkai prediksi video di lampiran H menarik: begitu model transisi GRU deterministik kehilangan plot pada bingkai, semuanya setelah itu tetap rusak, sementara model stokastik dapat bertransisi menjadi sesuatu yang tidak masuk akal pada satu bingkai, tetapi kemudian kembali ke sesuatu yang masuk akal setelahnya. Saya tidak akan menebak itu. Model gabungan lengkap mereka memberikan prediksi yang bagus di seluruhnya. Tidak ada kebijakan atau jaringan nilai seperti dalam RL bebas model. Tindakan dipilih dengan mencoba urutannya menggunakan fungsi transisi dan hadiah yang dimodelkan, dan tindakan yang mengarah pada hasil terbaik diambil. Ribuan urutan tindakan dievaluasi untuk setiap tindakan yang dipilih, tetapi karena beroperasi pada vektor laten kompak, ini relatif efisien. Metode Cross-Entropy (CEM) digunakan untuk merencanakan beberapa langkah ke depan dengan model transisi. Ini harus heuristik untuk ruang aksi berkelanjutan atau lebih dari beberapa langkah yang dimodelkan ke masa depan. Input ke jaringan status adalah pengamatan RGB 64x64 (dikuantisasi menjadi 5 bit seperti GLOW; Saya tidak jelas mengapa ini diperlukan). Selama pelatihan, mereka memiliki model pengamatan yang mencoba mundur dari keadaan ke pengamatan piksel. Ini umumnya tidak mungkin dilakukan dengan sempurna ketika statusnya lebih kecil dari gambar, tetapi mencobanya memberikan sinyal umpan balik yang kaya untuk apa yang harus dimasukkan ke dalam status. Ini tidak digunakan untuk bagian mana pun dari proses keputusan tindakan, ini hanya bantuan pelatihan. Tindakan-ulangi 2 hingga 8, tergantung pada tugasnya. Overshooting laten sebagai regularizer di ruang laten yang mendorong prediksi satu langkah dan multi-langkah yang diulangi agar cocok.