トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
皆さん、これまでの関心に感謝します。
ここで私たちが行ったことの説明を紹介します
要約:これはPPOと生きたニューロンを閉じたループで構成しています。ポリシーは刺激によって「話し」、細胞はスパイクで「応答」し、価値関数は刺激を通じてフィードバックするサプライズ信号を提供し、ポリシーが行動の良し悪しを伝えられるようにします。
DOOMの前には、手作りのマッピングに頼るPongがありました。小さな環境では、フィードバックの意味を手動で定義し、一貫性を保つことができます。
環境が複雑になるにつれて、手作りの信号は難しくなり、一貫性がなくなります。信号が同じ意味を持つ文脈が爆発的に増え、手作業で不変性を再発明し始めます。
DOOMは3Dで構成的な作品です。歩く+ターン+シュートを同時に行うことができます。正しいマッピングはルールの山ではありえないので、行動が変化しても一貫性を保つシグナルのジェネレーターが必要でした。
だからPPOを使ったのです。スパイクは微分不可であり、PPOの価値関数はポリシーとセルの結合した「驚き」を客観的に定義し、それをオンラインフィードバック言語に変換する方法を提供します。 このポリシーは「前進」や「シュート」を直接出力しません。この政策は刺激を生み出します。細胞はスパイクで反応します。そのスパイクが、リニア表示でゲームのアクションを選択します。
さらに、値関数はリターンのオンライン推定値を提供し、予測誤差としてサプライズを計算できます。このアクションサプライズに基づいて、異なるフィードバックスキーマに応じて周波数と振幅を調整します。 例えば、ある行動が正で値関数が「高い驚き」と表示された場合、その行動に対する正の行動フィードバックの頻度を減らし、細胞が好む行動をより「予測可能」にします。
トップ
ランキング
お気に入り
