如果你正在阅读@natolambert的《RLHF书》,第11章(关于策略梯度算法)刚刚变得更长了: 我贡献了策略梯度目标的完整推导!
11.18K