A visão geral mais completa do RL que já vi. Kevin Murphy, do Google DeepMind, que tem mais de 128 mil citações, escreveu isto. O que diferencia isso de outros recursos de RL: → Ela faz a ponte entre o RL clássico e a era moderna dos LLMs: Há um capítulo inteiro dedicado a "LLMs e RL" que aborda: - Modelagem RLHF, RLAIF e de recompensa - PPO, GRPO, DPO, RLOO, REINFORCE++ - Modelos de raciocínio de treinamento - RL multi-turno para agentes - Escalonamento computacional em tempo de teste → Os fundamentos são cristalinos Todo algoritmo principal, como métodos baseados em valores, gradientes de políticas e ator-crítico, é explicado com rigor matemático. → Modelos RL e mundiais baseados em modelos recebem cobertura adequada Abrange Dreamer, MuZero, MCTS e além, que é exatamente para onde o campo está caminhando. → Seção RL Multiagente Teoria dos jogos, equilíbrio de Nash e MARL para agentes LLM. Compartilhei o artigo do arXiv nas respostas!