分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

皆さん、これまでの関心に感謝します。ここで私たちが行ったことの説明を紹介します要約:これはPPOと生きたニューロンを閉じたループで構成しています。ポリシーは刺激によって「話し」、細胞はスパイクで「応答」し、価値関数は刺激を通じてフィードバックするサプライズ信号を提供し、ポリシーが行動の良し悪しを伝えられるようにします。 DOOMの前には、手作りのマッピングに頼るPongがありました。小さな環境では、フィードバックの意味を手動で定義し、一貫性を保つことができます。環境が複雑になるにつれて、手作りの信号は難しくなり、一貫性がなくなります。信号が同じ意味を持つ文脈が爆発的に増え、手作業で不変性を再発明し始めます。 DOOMは3Dで構成的な作品です。歩く+ターン+シュートを同時に行うことができます。正しいマッピングはルールの山ではありえないので、行動が変化しても一貫性を保つシグナルのジェネレーターが必要でした。だからPPOを使ったのです。スパイクは微分不可であり、PPOの価値関数はポリシーとセルの結合した「驚き」を客観的に定義し、それをオンラインフィードバック言語に変換する方法を提供します。このポリシーは「前進」や「シュート」を直接出力しません。この政策は刺激を生み出します。細胞はスパイクで反応します。そのスパイクが、リニア表示でゲームのアクションを選択します。さらに、値関数はリターンのオンライン推定値を提供し、予測誤差としてサプライズを計算できます。このアクションサプライズに基づいて、異なるフィードバックスキーマに応じて周波数と振幅を調整します。例えば、ある行動が正で値関数が「高い驚き」と表示された場合、その行動に対する正の行動フィードバックの頻度を減らし、細胞が好む行動をより「予測可能」にします。

トップ

ランキング

お気に入り