Самый полный обзор RL, который я когда-либо видел. Кевин Мерфи из Google DeepMind, у которого более 128 тысяч цитирований, написал это. Что отличает это от других ресурсов по RL: → Он соединяет классический RL с современной эпохой LLM: Есть целая глава, посвященная "LLM и RL", охватывающая: - RLHF, RLAIF и моделирование вознаграждений - PPO, GRPO, DPO, RLOO, REINFORCE++ - Обучение моделей рассуждений - Многоходовой RL для агентов - Масштабирование вычислений во время тестирования → Основы кристально ясны Каждый основной алгоритм, такой как методы на основе ценности, градиенты политики и актер-критик, объясняется с математической строгостью. → Модели на основе RL и мировые модели получают должное внимание Охватывает Dreamer, MuZero, MCTS и далее, что именно туда движется эта область. → Раздел о многоагентном RL Игровая теория, равновесие Нэша и MARL для агентов LLM. Я поделился статьей arXiv в ответах!