Den mest omfattande RL-översikten jag någonsin sett. Kevin Murphy från Google DeepMind, som har över 128 000 citeringar, skrev detta. Vad gör detta annorlunda än andra RL-resurser: → Den förenar klassisk RL med den moderna LLM-eran: Det finns ett helt kapitel dedikerat till "LLM och RL" som täcker: - RLHF, RLAIF och belöningsmodellering - PPO, GRPO, DPO, RLOO, FÖRSTÄRKA++ - Träningsmodeller för resonememang - Multi-turn RL för agenter - Testtidsskalning av beräkningar → Grunderna är kristallklara Varje större algoritm, som värdebaserade metoder, policygradienter och aktör-kritiker, förklaras med matematisk stringens. → Modellbaserade RL- och världsmodeller får rätt täckning Täcker Dreamer, MuZero, MCTS och vidare, vilket är precis dit fältet är på väg. → Multiagent RL-sektion Spelteori, Nash-jämvikt och MARL för LLM-agenter. Jag har delat arXiv-artikeln i svaren!