一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我才投入5分钟，显然推理模型需要一个杏仁核。目前的方法（据我所知）就像只有策略网络的AlphaGo。不一定要是一个单独的模型（后来AlphaZero使用了结合价值+策略模型），但必须训练那个“我赢了吗”的输出。