تتناول هذه الورقة من فريق LongCat سؤالا أصبح لا مفر منه في أبحاث الذكاء الاصطناعي الحديثة: لماذا لا تزال نماذج التفكير التي تبدو رائعة في المعايير تواجه صعوبة عند وضعها في بيئات حقيقية وفوضوية؟ يقدم المؤلفون نموذج LongCat-Flash-Thinking-2601، وهو نموذج مزيج من الخبراء بمظلة 560B مصمم ليس فقط للتفكير، بل للعمل أيضا. الادعاء المركزي هو أن التفكير الفاعلي لا ينشأ من سلسلة تفكير أفضل فقط. ينبثق من تفاعل مستمر مع البيئات والأدوات والضوضاء والفشل. الخطوة التقنية دقيقة لكنها مهمة. بدلا من التعامل مع التفكير كمشكلة نصية ثابتة، تصيغها الورقة كعملية مغلقة: مراقبة → التخطيط → التصرف → تلقي الملاحظات → المراجعة. هذا التحول يفرض تغييرات في كل مكان: بناء البيانات، خوارزميات التدريب، البنية التحتية، وحتى سلوك وقت الاستدلال. مساهمة رئيسية هي توسيع البيئة. بدلا من الاعتماد على بعض معايير الوكلاء المصممة يدويا، يبني المؤلفون خط أنابيب آلي يولد أكثر من 10,000 بيئة تنفيذية عبر 20+ مجال. كل بيئة مبنية على اعتماديات أدوات حقيقية، وقواعد بيانات موثقة، ومسارات حلول متعددة صحيحة. الصعوبة تتناسب من حيث الهيكلية، وليس المرجعية. عادة ما ينهار التدريب في هذه البيئات تحت الضوضاء. لذا فإن الورقة تمثل صراحة عيوب العالم الحقيقي: تعليمات غامضة، أعطال في الأدوات، مخرجات جزئية. الضوضاء لا تعامل كحالة حادة. تم تضمين ذلك في المنهج الدراسي، ويزداد تعقيدا تدريجيا حتى يتم تعلم المتانة وليس تصحيحها لاحقا. بالإضافة إلى ذلك، يوسع التعلم المعزز غير المتزامن (DORA) للتعامل مع التفاعلات طويلة الذيل متعددة الأدوار على نطاق واسع، مما يحافظ على استقرار التدريب حتى مع عشرات الآلاف من البيئات المتزامنة. عند وقت الاستدلال، يقدم النموذج وضع التفكير الثقيل. بدلا من سلسلة طويلة من الأفكار، يمر بمسارات استدلال متوازية، ثم يجمعها عبر مرحلة انعكاسية ثانوية. هذا يحدد عمق وعرض الاستدلال معا، ويتفوق باستمرار على الاتساق الذاتي في المهام المعقدة. النتائج لافتة للنظر. يضع LongCat-Flash-Thinking-2601 أداء متقدما بين النماذج مفتوحة المصدر على معايير وكلاء مثل BrowseComp وτ²-Bench وVitaBench، مع بقائه منافسا مع النماذج المغلقة في الرياضيات والبرمجة والبحث. والأهم من ذلك، أن الأداء يتدهور أقل بكثير تحت ظروف الضوضاء. الدلالة الأوسع غير مريحة لكنها واضحة: جودة التفكير لم تعد عنق الزجاجة. التعميم هو. والتعميم يأتي من البيئات، وليس من التعليمات. تجادل هذه الورقة بأنه إذا أردنا وكلاء يعملون خارج النماذج التجريبية، فعلينا التوقف عن تدريبهم في عوالم نظيفة وخيالية. الذكاء الحقيقي يصنع حيث تنهار الأشياء. الورقة: التقرير الفني لونغ كات-فلاش-ثينكنغ-2601