Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 14
2022: MENGUASAI ATARI DENGAN MODEL DUNIA DISKRIT
(PemimpiV2)
DreamerV1 sebagian besar ditargetkan pada tugas kontrol berkelanjutan, tetapi juga menunjukkan permainan dasar game Atari dan tugas DMLab. DreamerV2 meningkatkan model sehingga mencapai kinerja canggih pada suite Atari 55 game, dan juga memecahkan tugas kontrol berkelanjutan berjalan humanoid yang lebih sulit.
Ini adalah makalah teknik, dan saya di sini untuk itu! Dalam lampiran C mereka merangkum perubahan yang mengarah pada peningkatan kinerja, dan juga (sangat jarang dalam makalah!) daftar hal-hal yang mereka coba yang tidak berhasil. Algoritma ditampilkan dalam kode aktual dengan nama, bukan huruf Yunani.
Perlu dicatat bahwa mereka hanya menggunakan gambar skala abu-abu 64x64 sebagai input, dan itu diturunkan dari resolusi 84x84 umum yang digunakan oleh DQN, jadi itu bahkan bukan gambar 64x64 yang sempurna dari sumbernya. Itu adalah masukan yang sangat buram untuk skor yang bagus. Saya ingin tahu apakah menggunakan gambar 128x128xRGB dengan lapisan conv ekstra akan meningkatkan kinerja, atau apakah detail ekstra akan mempersulit model dunia untuk dilatih.
Perubahan terbesar mereka adalah mengganti laten gaussian gaya VAE, yang hanya 32 pasangan mean/var, dengan variabel kategoris: 32 variabel dari 32 kategori. Mereka tidak memiliki teori konklusif mengapa ini jauh lebih baik, tetapi menawarkan beberapa teori. Akan menarik untuk membandingkan lebih banyak gaussian dengan output kategoris yang lebih besar.
Perubahan algoritmik besar lainnya adalah "KL balancing", atau menggunakan tingkat pembelajaran yang berbeda untuk bobot sebelumnya dan posterior, sehingga prediktor berlatih lebih cepat daripada representasi. Pengoptimalan sambungan tampaknya bermasalah untuk V1.
DreamerV1 berjuang dengan eksplorasi, dan masih memiliki tindakan acak epsilon di atas kebijakan tindakan stokastik. Model regularisasi dan dinamika V2 yang ditingkatkan memungkinkan mereka untuk menghilangkan keacakan ekstra dan hanya mengandalkan kebijakan.
Mereka membuat beberapa perubahan substansial dalam pengaturan KL loss dan pelatihan untuk kontrol berkelanjutan versus tugas kontrol Atari diskrit.
Mereka juga meningkatkan model dan menggunakan aktivasi ELU di mana-mana.
Protokol evaluasi Atari mereka bagus: ruang aksi penuh dengan tindakan lengket diaktifkan. Skor cukup tinggi sehingga mereka merekomendasikan metrik baru: skor "rekor yang dipotong rata-rata" – menormalkan rekor dunia manusia, memotong jika di atas itu, lalu mengambil rata-rata semua pertandingan. Hasil Atari RL yang bersejarah telah dibandingkan dengan skor "manusia", yang awalnya adalah beberapa orang acak, kemudian akhirnya seorang gamer profesional, tetapi untuk agen yang kuat dalam rezim frame 200M, metrik rekor yang dipotong ini memiliki manfaat.
Selama pelatihan, lebih dari 200 juta bingkai lingkungan nyata, atau 50 juta pilihan aksi dengan action_repeat 4, 468 miliar keadaan laten dibayangkan, hampir 10x pengalaman yang akan dilihat oleh agen bebas model.
Pengalaman lingkungan nyata dilatih dalam batch yang terdiri dari 50 urutan masing-masing 50 langkah. Urutan dibatasi agar tidak melewati batas episode.
Saat melatih fungsi kebijakan dan nilai, urutan imajiner diluncurkan selama 15 langkah.
Nilai dilatih MSE, bukan kategoris. Jaringan target nilai tradisional digunakan, memperbarui setiap 100 langkah gradien.
Teratas
Peringkat
Favorit
