أكثر نظرة شاملة على التعلم الواقعي رأيتها على الإطلاق. كتب كيفن ميرفي من Google DeepMind، الذي لديه أكثر من 128 ألف استشهاد، هذا الكتاب. ما الذي يميز هذا عن مصادر التعلم الحقيقي الأخرى: → يربط بين التعلم المعزز الكلاسيكي وعصر الماجستير الحديث: هناك فصل كامل مخصص ل "نماذج اللغة الكبيرة والتعلم الواقعي" يغطي: - نمذجة RLHF وRLAIF والمكافأة - PPO، GRPO، DPO، RLOO، REINFORCE++ - نماذج التفكير التدريبي - التعلم المعزز متعدد الأدوار للوكلاء - مقياس الحوسبة في وقت الاختبار → الأساسيات واضحة تماما كل خوارزمية رئيسية، مثل الطرق القائمة على القيمة، وتدرجات السياسات، والناقد الممثل يتم شرحها بدقة رياضية. → تحصل النماذج المعتمدة على النماذج في التعلم الواقعي والعالم على تغطية مناسبة يغطي Dreamer وMuZero وMCTS وما بعدها، وهو بالضبط الاتجاه الذي يتجه إليه المجال. → قسم التعلم المعزز متعدد الوكلاء نظرية الألعاب، توازن ناش، وMARL لوكلاء نماذج اللغة الكبيرة. لقد شاركت ورقة arXiv في الردود!