Přidání pěkného způsobu, jak vizualizovat cíl PPO do knihy rlhf. Jádro pro policy-gradient je L~ R*A (R=policy ratio, A = výhoda). Dělejte dobré akce s větší pravděpodobností do určité míry. Snižte pravděpodobnost špatných činů až do určité míry. Min(...), & znaménko adv určují, která čára.
8,48K