6 měsíců po vydání našeho článku si stále vzpomínám na debaty o odstranění termínu normalizace délky v DrGRPO. A lidé si postupně myslí, že DrGRPO je jen o odstranění pohlavně přenosných chorob, ignorují nejdůležitější a nejjemnější (délkové) zkreslení, na které jsme se snažili komunitu upozornit. Dokonce i nyní mnoho článků (a open-source kódu) stále dělí ztrátu gradientu politiky délkou odezvy – bere průměr místo součtu... Naštěstí s implementací Tinkeru jako referencí doufám, že bude pro OSS komunitu přesvědčivější, aby přijala nezaujatý výpočet ztrát RL. Jsem tak vděčný společnosti Thinking Machines za posouvání hranic otevřené vědy 🚀