Hei kaikille, kiitos tähän asti kiinnostuksesta. Tässä selitys siitä, mitä olemme tehneet TLDR: Tämä on PPO plus elävät neuronit suljetussa silmukassa. Politiikka "puhuu" stimulaation kautta, solut "vastaavat" piikkien kautta, ja arvofunktio antaa yllättävän signaalin, että annan palautetta stimulaation kautta, jotta politiikka voi viestiä, kuinka hyvä tai huono teko oli. Ennen DOOMia oli Pong, joka perustui käsin tehtyihin kartoituksiin. Pienessä ympäristössä voit manuaalisesti määritellä, mitä palaute tarkoittaa, ja pitää sen johdonmukaisena. Kun ympäristö monimutkaistuu, käsintehdyt signaalit vaikeutuvat ja muuttuvat epäjohdonmukaisiksi. Niiden kontekstien määrä, joissa signaalin täytyy tarkoittaa samaa, räjähtää, ja alat keksiä invarianssia käsin uudelleen. DOOM on 3D ja sommittelullinen. Kävely + käännös + ampuminen voi tapahtua samaan aikaan. Oikea kartoitus ei voi olla sääntökasa (kasa sääntöjä), joten tarvitsin signaaligeneraattorin, joka pysyy johdonmukaisena käyttäytymisen muuttuessa. Siksi käytin PPO:ta. Piikit eivät ole derivoituvia, ja PPO:n arvofunktio antaa meille objektiivisen tavan määritellä yhdistetty "yllätys" politiikalle ja soluille muuttaa se verkkopalautekieleksi. Politiikka ei suoraan tuota "move forward" tai "shoot". Politiikka tuottaa elvytystä. Solut reagoivat piikkeillä. Nämä piikit valitsevat pelin toiminnan lineaarisen lukeman kautta. Lisäksi arvofunktio antaa sinulle online-arvion tuotosta, jonka avulla voit laskea yllätyksen ennustevirheeksi. Tämän toimintayllätyksen perusteella säädämme taajuutta ja amplitudia eri palauteskeemojen mukaan. Esim. Jos toiminto oli positiivinen ja arvofunktio sanoi "korkea yllätys", vähennämme positiivisen toiminnan palautteen tiheyttä kyseiselle toiminnolle, jolloin toiminnot ovat "ennustettavampia", kuten solut suosivat.