Ahoj všichni, díky za dosavadní zájem. Tady je vysvětlení, co jsme udělali Stručně: Toto je PPO plus živé neurony v uzavřené smyčce. Politika "mluví" stimulací, buňky "odpovídají" výkyvy a hodnotová funkce poskytuje překvapivý signál, který zpět posílám stimulací, aby politika mohla komunikovat, jak dobrý nebo špatný byl daný čin. Před DOOMem tu byl Pong, který spoléhal na ručně vytvořené mapy. V malém prostředí můžete ručně definovat, co zpětná vazba znamená, a udržet ji konzistentní. Jak se prostředí stává složitějším, ručně vyráběné signály jsou obtížnější a nekonzistentní. Počet kontextů, kde signál musí znamenat totéž, exploduje a začnete ručně znovu vynalézat invarianci. DOOM je 3D a kompoziční. Chůze + otočka + střelba může probíhat současně. Správné mapování nemůže být hromadou pravidel, takže jsem potřeboval generátor signálů, který zůstává koherentní i při změnách chování. Proto jsem použil PPO. Tyto výkyvy jsou nediferencovatelné a hodnotová funkce PPO nám umožňuje objektivně definovat kombinované "překvapení" pro politiku a buňky, aby se z toho stal online jazyk zpětné vazby. Politika přímo nezobrazuje "move forward" nebo "shoot". Politika vyvolává stimulaci. Buňky reagují výkyvy. Tyto hroty určují herní akci pomocí lineárního zobrazení. Navíc vám hodnotová funkce poskytne online odhad výnosu, který vám umožní vypočítat překvapení jako chybu predikce. Na základě tohoto překvapení v akci upravujeme frekvenci a amplitudu podle našich různých zpětnovazebních schémat. Například pokud byla akce kladná a hodnotová funkce říkala "vysoké překvapení", snížili jsme frekvenci pozitivní zpětné vazby pro tuto akci, čímž činíme akce "předvídatelnějšími", což buňky preferují.