Nejkomplexnější přehled reálného života, jaký jsem kdy viděl. Kevin Murphy z Google DeepMind, který má přes 128 tisíc citací, napsal toto. Čím se tento systém liší od ostatních zdrojů RL: → Propojuje klasickou RL s moderní érou LLM: Celá kapitola je věnována "LLM a reálnému životu", která se věnuje: - RLHF, RLAIF a modelování odměn - PPO, GRPO, DPO, RLOO, REINFORCE++ - Trénování modelů uvažování - Multi-turn RL pro agenty - Škálování výpočetních výpočtů v době testu → Základy jsou naprosto jasné Každý hlavní algoritmus, jako jsou metody založené na hodnotách, politické gradienty a actor-critic, je vysvětlen s matematickou přesností. → Modelové RL a světové modely mají řádné pokrytí Zahrnuje Dreamer, MuZero, MCTS a další, což je přesně směr, kterým se obor ubírá. → Sekce RL s více agenty Teorie her, Nashova rovnováha a MARL pro LLM agenty. ArXiv článek jsem sdílel v odpovědích!