我才投入5分钟,显然推理模型需要一个杏仁核。 目前的方法(据我所知)就像只有策略网络的AlphaGo。 不一定要是一个单独的模型(后来AlphaZero使用了结合价值+策略模型),但必须训练那个“我赢了吗”的输出。