Legger til en fin måte å visualisere PPO-målet til rlhf-boken. Kjernen for policy-gradient er L~ R*A (R=policy-forhold, A = fordel). Gjør gode handlinger mer sannsynlige opp til et punkt. Gjør dårlige handlinger mindre sannsynlige opp til et punkt. Min(...), og tegnet på adv bestemmer hvilken linje.
9,07K