Pokud čtete knihu RLHF z @natolambert, kapitola 11 (o algoritmech gradientu politik) je nyní trochu delší: Přispěl jsem k úplnému odvození cíle Policy Gradient!
11,18K