Najbardziej kompleksowy przegląd RL, jaki kiedykolwiek widziałem. Kevin Murphy z Google DeepMind, który ma ponad 128 tys. cytatów, napisał to. Co sprawia, że to różni się od innych zasobów RL: → Łączy klasyczne RL z nowoczesną erą LLM: Cały rozdział poświęcony "LLM i RL" obejmuje: - RLHF, RLAIF i modelowanie nagród - PPO, GRPO, DPO, RLOO, REINFORCE++ - Szkolenie modeli rozumowania - RL wieloetapowe dla agentów - Skalowanie obliczeń w czasie testu → Podstawy są krystalicznie jasne Każdy główny algorytm, taki jak metody oparte na wartości, gradienty polityki i aktor-krytyk, jest wyjaśniony z matematyczną precyzją. → RL oparte na modelach i modele świata są odpowiednio omówione Omawia Dreamer, MuZero, MCTS i więcej, co dokładnie wskazuje, w jakim kierunku zmierza ta dziedzina. → Sekcja RL wieloagentowego Teoria gier, równowaga Nasha i MARL dla agentów LLM. Podzieliłem się artykułem z arXiv w odpowiedziach!