Tổng quan về RL toàn diện nhất mà tôi từng thấy. Kevin Murphy từ Google DeepMind, người có hơn 128k trích dẫn, đã viết điều này. Điều gì làm cho điều này khác biệt so với các tài nguyên RL khác: → Nó kết nối RL cổ điển với kỷ nguyên LLM hiện đại: Có một chương hoàn toàn dành cho "LLMs và RL" bao gồm: - RLHF, RLAIF và mô hình phần thưởng - PPO, GRPO, DPO, RLOO, REINFORCE++ - Đào tạo các mô hình lý luận - RL đa lượt cho các tác nhân - Tăng cường tính toán trong thời gian kiểm tra → Các nguyên tắc cơ bản rất rõ ràng Mỗi thuật toán chính, như các phương pháp dựa trên giá trị, gradient chính sách và actor-critic đều được giải thích với độ chính xác toán học. → RL dựa trên mô hình và các mô hình thế giới được đề cập đầy đủ Đề cập đến Dreamer, MuZero, MCTS và hơn thế nữa, đây chính xác là hướng đi của lĩnh vực này. → Phần RL đa tác nhân Lý thuyết trò chơi, cân bằng Nash và MARL cho các tác nhân LLM. Tôi đã chia sẻ bài báo arXiv trong các phản hồi!