Die umfassendste Übersicht über RL, die ich je gesehen habe. Kevin Murphy von Google DeepMind, der über 128.000 Zitationen hat, hat dies geschrieben. Was macht dies anders als andere RL-Ressourcen: → Es verbindet klassisches RL mit der modernen LLM-Ära: Es gibt ein ganzes Kapitel, das "LLMs und RL" gewidmet ist und Folgendes abdeckt: - RLHF, RLAIF und Belohnungsmodellierung - PPO, GRPO, DPO, RLOO, REINFORCE++ - Training von Denkmodellen - Multi-Turn-RL für Agenten - Testzeit-Computerskalierung → Die Grundlagen sind glasklar Jeder wichtige Algorithmus, wie wertbasierte Methoden, Policy-Gradienten und Actor-Critic, wird mit mathematischer Strenge erklärt. → Modellbasiertes RL und Weltmodelle werden angemessen behandelt Behandelt Dreamer, MuZero, MCTS und darüber hinaus, was genau der Weg ist, in den sich das Feld entwickelt. → Abschnitt über Multi-Agenten-RL Spieltheorie, Nash-Gleichgewicht und MARL für LLM-Agenten. Ich habe das arXiv-Papier in den Antworten geteilt!