まだ5ヶ月しか経っていませんが、明らかに推論モデルには扁桃体が必要のように思えます 現在のアプローチ(私の知る限り)は、AlphaGoのようなもので、ポリシーネットワークのみを使います 別モデルである必要はありません(後のAlphaZeroは価値+ポリシーの複合モデルを使いました)が、「勝っているのか」という出力を訓練する必要があります