المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ورق ضخم لبنائي الوكلاء.
غالبا ما تكون أنظمة الوكلاء المتعددة أقل من الكافية. المشكلة ليست في كيفية بناء الوكلاء أنفسهم. هكذا يتم تنظيمهم.
غالبا ما تكون مبنية بسلاسل ثابتة، وأشجار، ورسوم بيانية لا يمكنها التكيف مع تطور المهام.
لكن ماذا لو تمكن النظام من تعلم أنماط تنسيقه الخاصة؟
يقدم هذا البحث الجديد نظام Puppeteer، وهو إطار يتعلم كيفية تنظيم الوكلاء بشكل ديناميكي بدلا من الاعتماد على طوبولوجيات يدوية الصنع.
بدلا من تحديد هياكل التعاون مسبقا، يختار المنسق أي وكيل يتحدث بعد ذلك بناء على حالة المحادثة المتطورة. يتم تدريب السياسة مع REINFORCE، حيث تحسن مباشرة لنجاح المهام.
بدلا من البحث في طوبولوجيا الرسوم البيانية المعقدة، تقوم بتقسيم كل شيء إلى اختيارات وكيل متسلسلة. هذا إعادة التأطير تتجاوز التعقيد التوافقي.
ما يظهر هو المفاجئ: أنماط دورية مضغوطة تتطور بشكل طبيعي. ليست رسوم بيانية متشعبة، بل حلقات ضيقة حيث يتولى 2-3 وكلاء معظم العمل.
الجزء اللافت هو أن النظام يكتشف الكفاءة من تلقاء نفسه.
النتائج:
- في مسائل الرياضيات GSM-Hard: 70٪ دقة (ارتفاعا من 13.5٪ للنموذج الأساسي فقط).
- على MMLU-Pro: 83٪ (مقابل 76٪ في الأساس الطبيعي).
- في تطوير برمجيات SRDD: 76.4٪ (مقابل 60.6٪ في الأساس الأساسي).
تأتي هذه المكاسب مع تقليل استهلاك الرموز. تظهر الورقة أن تكاليف الرموز تنخفض باستمرار طوال فترة التدريب بينما يتحسن الأداء.
كما تثبت أن عملية اختيار الوكيل تحقق خصائص ماركوف، أي أن الحالة الحالية وحدها تحدد الوكيل الأمثل التالي. لا حاجة لتتبع التاريخ الكامل.
لماذا يهم ذلك لمطوري الذكاء الاصطناعي: البساطة المكتسبة تتفوق على التعقيد الهندسي. يمكن لجهاز توجيه مدرب مع عدد قليل من الوكلاء المتخصصين أن يتفوق على سير العمل اليدوي المعقد مع تقليل العبء الحسابي.

الأفضل
المُتصدِّرة
التطبيقات المفضلة

