A visão geral de RL mais abrangente que já vi. Kevin Murphy da Google DeepMind, que tem mais de 128 mil citações, escreveu isto. O que torna isto diferente de outros recursos de RL: → Ele faz a ponte entre o RL clássico e a era moderna dos LLM: Há um capítulo inteiro dedicado a "LLMs e RL" cobrindo: - RLHF, RLAIF e modelagem de recompensas - PPO, GRPO, DPO, RLOO, REINFORCE++ - Treinamento de modelos de raciocínio - RL de múltiplas interações para agentes - Escalonamento de computação em tempo de teste → Os fundamentos estão cristalinos Cada algoritmo principal, como métodos baseados em valor, gradientes de política e ator-crítico, é explicado com rigor matemático. → RL baseado em modelo e modelos de mundo recebem a devida cobertura Cobre Dreamer, MuZero, MCTS e além, que é exatamente para onde o campo está se dirigindo. → Seção de RL multi-agente Teoria dos jogos, equilíbrio de Nash e MARL para agentes LLM. Compartilhei o artigo do arXiv nas respostas!