如果你正在閱讀 @natolambert 的 RLHF 書籍,第 11 章(關於策略梯度算法)剛剛變得更長了: 我貢獻了策略梯度目標的完整推導!
11.18K