المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
تتناول هذه الورقة من فريق LongCat سؤالا أصبح لا مفر منه في أبحاث الذكاء الاصطناعي الحديثة: لماذا لا تزال نماذج التفكير التي تبدو رائعة في المعايير تواجه صعوبة عند وضعها في بيئات حقيقية وفوضوية؟
يقدم المؤلفون نموذج LongCat-Flash-Thinking-2601، وهو نموذج مزيج من الخبراء بمظلة 560B مصمم ليس فقط للتفكير، بل للعمل أيضا. الادعاء المركزي هو أن التفكير الفاعلي لا ينشأ من سلسلة تفكير أفضل فقط. ينبثق من تفاعل مستمر مع البيئات والأدوات والضوضاء والفشل.
الخطوة التقنية دقيقة لكنها مهمة. بدلا من التعامل مع التفكير كمشكلة نصية ثابتة، تصيغها الورقة كعملية مغلقة: مراقبة → التخطيط → التصرف → تلقي الملاحظات → المراجعة.
هذا التحول يفرض تغييرات في كل مكان: بناء البيانات، خوارزميات التدريب، البنية التحتية، وحتى سلوك وقت الاستدلال.
مساهمة رئيسية هي توسيع البيئة. بدلا من الاعتماد على بعض معايير الوكلاء المصممة يدويا، يبني المؤلفون خط أنابيب آلي يولد أكثر من 10,000 بيئة تنفيذية عبر 20+ مجال. كل بيئة مبنية على اعتماديات أدوات حقيقية، وقواعد بيانات موثقة، ومسارات حلول متعددة صحيحة. الصعوبة تتناسب من حيث الهيكلية، وليس المرجعية.
عادة ما ينهار التدريب في هذه البيئات تحت الضوضاء. لذا فإن الورقة تمثل صراحة عيوب العالم الحقيقي: تعليمات غامضة، أعطال في الأدوات، مخرجات جزئية.
الضوضاء لا تعامل كحالة حادة. تم تضمين ذلك في المنهج الدراسي، ويزداد تعقيدا تدريجيا حتى يتم تعلم المتانة وليس تصحيحها لاحقا.
بالإضافة إلى ذلك، يوسع التعلم المعزز غير المتزامن (DORA) للتعامل مع التفاعلات طويلة الذيل متعددة الأدوار على نطاق واسع، مما يحافظ على استقرار التدريب حتى مع عشرات الآلاف من البيئات المتزامنة.
عند وقت الاستدلال، يقدم النموذج وضع التفكير الثقيل. بدلا من سلسلة طويلة من الأفكار، يمر بمسارات استدلال متوازية، ثم يجمعها عبر مرحلة انعكاسية ثانوية. هذا يحدد عمق وعرض الاستدلال معا، ويتفوق باستمرار على الاتساق الذاتي في المهام المعقدة.
النتائج لافتة للنظر. يضع LongCat-Flash-Thinking-2601 أداء متقدما بين النماذج مفتوحة المصدر على معايير وكلاء مثل BrowseComp وτ²-Bench وVitaBench، مع بقائه منافسا مع النماذج المغلقة في الرياضيات والبرمجة والبحث.
والأهم من ذلك، أن الأداء يتدهور أقل بكثير تحت ظروف الضوضاء.
الدلالة الأوسع غير مريحة لكنها واضحة: جودة التفكير لم تعد عنق الزجاجة. التعميم هو. والتعميم يأتي من البيئات، وليس من التعليمات.
تجادل هذه الورقة بأنه إذا أردنا وكلاء يعملون خارج النماذج التجريبية، فعلينا التوقف عن تدريبهم في عوالم نظيفة وخيالية. الذكاء الحقيقي يصنع حيث تنهار الأشياء.
الورقة: التقرير الفني لونغ كات-فلاش-ثينكنغ-2601

3
توضح هذه الورقة لماذا يعد توسيع الوكلاء مع المزيد من النماذج المسدودة.
تقدم EvoCUA ادعاء بسيطا لكنه غير مريح: وكلاء استخدام الكمبيوتر لا يفشلون لأنهم "ليسوا أذكياء بما فيه الكفاية".
يفشلون لأنهم مدربون كالببغاوات، وليس كمتعلمين.
معظم وكلاء واجهة المستخدم الرسومية ينسخون الآثار الثابتة. هذا ينفع للمهام القصيرة. تنهار في اللحظة التي تحتاج فيها إلى التخطيط أو التعافي أو الحكم.
تحول EvoCUA النموذج من تحجيم البيانات إلى مقياس الخبرة.
بدلا من جمع المزيد من لقطات الشاشة والنصوص، يبني حلقة مغلقة:
• توليف المهام تلقائيا
• إرفاق المدققين التنفيذيين (بدون مكافآت غامضة)
• تشغيل عمليات نشر ضخمة لصندوق الرمل المتوازي
• مقارنة مسارات النجاح مقابل الفشل
• تعزيز ما ينجح، وإعادة كتابة ما ينكسر
الفشل هنا ليس ضوضاء.
إنها الإشارة الأعلى قيمة.
يتعلم النموذج أين حدث الخطأ، ولماذا، وكيفية إصلاحه، ثم يستوعب هذا التصحيح.
هذا مهم لأن عملاء واجهة المستخدم يموتون عند الحدود:
حالات واجهة المستخدم غير المتوقعة
سير العمل على الأفق الطويل
أخطاء التوقيت والترتيب والاسترداد
تدرب EvoCUA مباشرة على تلك الحالات النادرة.
النتيجة:
• نجاح 56.7٪ على OSWorld
• SOTA مفتوح المصدر الجديد
• النماذج الصغيرة تتفوق على الخطوط الأساسية الأكبر
• تنافس مع أنظمة الوزن المغلق الأعلى
الفهم الحقيقي ليس الفوز المعياري.
إنه هذا التحول:
الوكلاء لا يتحسنون برؤية المزيد من الأمثلة.
يتحسنون عندما يعيشون من خلال المزيد من الخبرة.
إذا كنت جادا بشأن استخدام الحاسوب الذاتي، فهذه الورقة قراءة مطلوبة.
الورقة: EvoCUA: تطور وكلاء استخدام الحاسوب من خلال التعلم من
تجربة تركيبية قابلة للتوسع

44
الأفضل
المُتصدِّرة
التطبيقات المفضلة
