Hai semuanya, terima kasih atas minatnya sejauh ini. Berikut penjelasan tentang apa yang telah kami lakukan TLDR: Ini adalah PPO ditambah neuron hidup dalam lingkaran tertutup. Kebijakan "berbicara" melalui stimulasi, sel "membalas" melalui lonjakan, dan fungsi nilai memberikan sinyal kejutan bahwa saya memberi umpan balik melalui stimulasi sehingga kebijakan dapat mengkomunikasikan seberapa baik atau buruk suatu tindakan. Sebelum DOOM, ada Pong, yang mengandalkan pemetaan buatan tangan. Dalam lingkungan kecil, Anda dapat secara manual menentukan apa arti umpan balik dan menjaganya tetap konsisten. Ketika lingkungan menjadi lebih kompleks, sinyal buatan tangan menjadi lebih sulit dan menjadi tidak konsisten. Jumlah konteks di mana sinyal harus berarti hal yang sama meledak, dan Anda mulai menemukan kembali invariansi dengan tangan. DOOM bersifat 3D dan komposisi. Berjalan + berputar + menembak dapat terjadi pada saat yang bersamaan. Pemetaan yang tepat tidak bisa menjadi tumpukan aturan, jadi saya membutuhkan generator sinyal yang tetap koheren saat perilaku berubah. Itu sebabnya saya menggunakan PPO. Lonjakan tidak dapat dibedakan, dan fungsi nilai PPO memberi kita cara untuk secara objektif mendefinisikan "kejutan" gabungan untuk kebijakan dan sel untuk mengubahnya menjadi bahasa umpan balik online. Kebijakan tersebut tidak secara langsung mengeluarkan "bergerak maju" atau "menembak". Kebijakan menghasilkan stimulasi. Sel-sel merespons dengan paku. Paku itulah yang memilih aksi permainan, melalui pembacaan linier. Selain itu, fungsi nilai memberi Anda perkiraan pengembalian online, yang memungkinkan Anda menghitung kejutan sebagai kesalahan prediksi. Berdasarkan kejutan tindakan ini, kami menyesuaikan frekuensi dan amplitudo sesuai untuk skema umpan balik kami yang berbeda. Misalnya Jika suatu tindakan positif dan fungsi nilai mengatakan "kejutan tinggi", maka kita mengurangi frekuensi umpan balik tindakan positif untuk tindakan itu, membuat tindakan lebih "dapat diprediksi" yang disukai sel.