أنا فقط في 5 دقائق ويبدو أن نماذج الاستدلال تحتاج إلى لوزة دماغية النهج الحالي (حسب علمي) يشبه AlphaGo مع شبكة سياسات فقط لا يجب أن يكون نموذجا منفصلا (لاحقا استخدم ألفا زيرو نموذج قيمة مشتركة + سياسة) لكن يجب تدريب مخرجات "هل أنا الفائز"