Den mest omfattende RL-oversikten jeg noen gang har sett. Kevin Murphy fra Google DeepMind, som har over 128 000 sitater, skrev dette. Hva gjør dette annerledes enn andre RL-ressurser: → Den bygger bro mellom klassisk RL og den moderne LLM-æraen: Det finnes et helt kapittel dedikert til «LLM-er og RL» som dekker: - RLHF, RLAIF og belønningsmodellering - PPO, GRPO, DPO, RLOO, FORSTERKER++ - Treningsmodeller for resonnement - Multi-turn RL for agenter - Testtids beregningsskalering → Grunnprinsippene er krystallklare Alle større algoritmer, som verdibaserte metoder, policygradienter og aktør-kritiker, forklares med matematisk grundighet. → Modellbaserte RL- og verdensmodeller får skikkelig dekning Dekker Dreamer, MuZero, MCTS og videre, som er akkurat dit feltet er på vei. → Multi-agent RL-seksjon Spillteori, Nash-likevekt og MARL for LLM-agenter. Jeg har delt arXiv-artikkelen i svarene!