これまで見た中で最も包括的な強化学習の概要です。 Google DeepMindのケビン・マーフィーは、12万8千回以上の引用を有しています。 他の強化学習リソースとの違いは以下の通りです: → これは古典的な強化学習と現代のLLM時代をつなぐものです: 「LLMと強化学習」に特化した章が丸ごとあります。 - RLHF、RLAIF、報酬モデリング - PPO、GRPO、DPO、RLOO、REINFORCE++ - 推論モデルの訓練 - エージェント向けのマルチターンRL - テスト時計算スケーリング → 基本は明確です 価値ベース手法、ポリシー勾配、アクター・クリティクスなど、主要なアルゴリズムはすべて数学的な厳密さで説明されています。 → モデルベースの強化学習(RL)やワールドモデルが適切なカバレッジを受けています Dreamer、MuZero、MCTSなどをカバーしており、まさにこの分野が向かっている方向です。 → マルチエージェント強化学習セクション ゲーム理論、ナッシュ均衡、そしてLLMエージェント向けのMARLです。 返信でarXivの論文も共有しました!