La vue d'ensemble la plus complète sur l'apprentissage par renforcement (RL) que j'ai jamais vue. Kevin Murphy de Google DeepMind, qui a plus de 128k citations, a écrit cela. Ce qui rend cela différent des autres ressources sur le RL : → Cela fait le lien entre le RL classique et l'ère moderne des LLM : Il y a un chapitre entier dédié à "LLMs et RL" couvrant : - RLHF, RLAIF et modélisation des récompenses - PPO, GRPO, DPO, RLOO, REINFORCE++ - Entraînement de modèles de raisonnement - RL multi-tour pour agents - Évolutivité des calculs au moment du test → Les fondamentaux sont d'une clarté cristalline Chaque algorithme majeur, comme les méthodes basées sur la valeur, les gradients de politique et l'acteur-critique, est expliqué avec rigueur mathématique. → Le RL basé sur des modèles et les modèles du monde sont correctement couverts Couvre Dreamer, MuZero, MCTS, et au-delà, ce qui est exactement la direction dans laquelle le domaine se dirige. → Section sur le RL multi-agent Théorie des jeux, équilibre de Nash et MARL pour les agents LLM. J'ai partagé le papier arXiv dans les réponses !