Cea mai cuprinzătoare prezentare RL pe care am văzut-o vreodată. Kevin Murphy de la Google DeepMind, care are peste 128.000 de citări, a scris acest mesaj. Ce îl diferențiază de alte resurse RL: → Face legătura între RL clasic și era modernă a LLM-urilor: Există un întreg capitol dedicat "LLM-urilor și RL-urilor" care acoperă: - Modelare RLHF, RLAIF și recompensă - PPO, GRPO, DPO, RLOO, REINFORCE++ - Modele de raționament de antrenament - RL multi-turn pentru agenți - Scalarea calculului în timpul testului → Fundamentele sunt clare ca lumina zilei Fiecare algoritm major, precum metodele bazate pe valori, gradientele de politici și actor-critic, este explicat cu rigoare matematică. → Modelele RL și mondiale bazate pe modele beneficiază de o acoperire adecvată Acoperă Dreamer, MuZero, MCTS și altele, exact direcția în care se îndreaptă domeniul. → Secțiunea RL multi-agent Teoria jocurilor, echilibrul Nash și MARL pentru agenții LLM. Am împărtășit articolul arXiv în răspunsuri!