Hey zusammen, danke für das bisherige Interesse. Hier ist eine Erklärung, was wir gemacht haben. TLDR: Das ist PPO plus lebende Neuronen in einem geschlossenen Kreislauf. Die Policy „spricht“ durch Stimulation, die Zellen „antworten“ durch Spikes, und die Wertfunktion liefert ein Überraschungssignal, das ich durch Stimulation zurückfüttere, damit die Policy kommunizieren kann, wie gut oder schlecht eine Aktion war. Vor DOOM gab es Pong, das auf handgefertigten Zuordnungen basierte. In einer kleinen Umgebung kannst du manuell definieren, was Feedback bedeutet, und es konsistent halten. Wenn die Umgebung komplexer wird, wird es schwieriger, handgefertigte Signale zu erstellen, und sie werden inkonsistent. Die Anzahl der Kontexte, in denen ein Signal dasselbe bedeuten muss, explodiert, und du beginnst, Invarianz von Hand neu zu erfinden. DOOM ist 3D und kompositorisch. Gehen + drehen + schießen kann gleichzeitig geschehen. Die richtige Zuordnung kann kein Haufen von Regeln sein, also brauchte ich einen Generator von Signalen, der kohärent bleibt, während sich das Verhalten ändert. Deshalb habe ich PPO verwendet. Die Spikes sind nicht differenzierbar, und die Wertfunktion von PPO gibt uns eine Möglichkeit, eine kombinierte „Überraschung“ für die Policy und die Zellen objektiv zu definieren, um sie in eine Online-Feedback-Sprache umzuwandeln. Die Policy gibt nicht direkt „vorwärts bewegen“ oder „schießen“ aus. Die Policy gibt Stimulation aus. Die Zellen reagieren mit Spikes. Diese Spikes sind es, die die Spielaktion auswählen, über eine lineare Auswertung. Darüber hinaus gibt dir die Wertfunktion eine Online-Schätzung der Rendite, die es dir ermöglicht, Überraschung als Vorhersagefehler zu berechnen. Basierend auf dieser Aktionsüberraschung passen wir die Frequenz und Amplitude entsprechend für unsere verschiedenen Feedback-Schemas an. Z.B. Wenn eine Aktion positiv war und die Wertfunktion „hohe Überraschung“ sagte, dann reduzieren wir die Frequenz des positiven Aktionsfeedbacks für diese Aktion, wodurch Aktionen „vorhersehbarer“ werden, was die Zellen bevorzugen.