La panoramica più completa sul RL che abbia mai visto. Kevin Murphy di Google DeepMind, che ha oltre 128k citazioni, ha scritto questo. Cosa rende questo diverso da altre risorse sul RL: → Colma il divario tra il RL classico e l'era moderna degli LLM: C'è un intero capitolo dedicato a "LLM e RL" che copre: - RLHF, RLAIF e modellazione delle ricompense - PPO, GRPO, DPO, RLOO, REINFORCE++ - Addestramento di modelli di ragionamento - RL multi-turno per agenti - Scalabilità del calcolo al momento del test → I fondamenti sono cristallini Ogni algoritmo principale, come i metodi basati sul valore, i gradienti di politica e l'attore-critico, è spiegato con rigore matematico. → Il RL basato su modelli e i modelli del mondo ricevono una copertura adeguata Coprendo Dreamer, MuZero, MCTS e oltre, che è esattamente dove si sta dirigendo il campo. → Sezione sul RL multi-agente Teoria dei giochi, equilibrio di Nash e MARL per agenti LLM. Ho condiviso il documento arXiv nelle risposte!