Hvis du leser RLHF-boken fra @natolambert, har kapittel 11 (om policygradientalgoritmer) nettopp blitt litt lengre: Jeg bidro med hele utledningen av Policy Gradient-målet!
11,18K