المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
فهم الفيديو الطويل يكسر معظم نماذج اللغة الكبيرة متعددة الوسائط.
النهج الافتراضي لمعالجة الفيديوهات التي تستغرق ساعة هو ضغط المحتوى إلى ملخصات ضاعت أو تقليل العينات بشكل مكثف.
هذا ينقل عبء التفكير الزمني إلى مرحلة مبكرة لا رجعة فيها. تضيع الأدلة الدقيقة قبل أن يبدأ النموذج حتى في التفكير المنطقي.
لكن ماذا لو كان بإمكان النموذج أن يقرر بنشاط ما الذي يراقبه، ومتى يسأل عن التفاصيل، ومتى جمع أدلة كافية؟
يقدم هذا البحث الجديد LongVideoAgent، وهو إطار عمل متعدد الوكلاء حيث يقوم نموذج اللغة الكبير الرئيسي بتنسيق الوكلاء المتخصصين بدلا من ترميز كل شيء بشكل سلبي من البداية.
يتيح التفكير الفاكلي للنماذج التركيز على المقاطع ذات الصلة وجمع الأدلة المستهدفة بدلا من الأمل في بقاء المعلومات الصحيحة بعد الضغط.
تتكون البنية من ثلاثة مكونات. الوكيل الرئيسي يتولى التفكير ويقرر أي إجراء يجب اتخاذه في كل خطوة. يقوم عامل التأريض بتحديد مواقع المقاطع المتعلقة بالأسئلة ضمن الجدول الزمني الكامل للحلقة. يقوم وكيل الرؤية باستخراج الملاحظات المستهدفة من إطارات محددة داخل تلك الأجزاء.
يعمل الوكيل الرئيسي حتى K خطوة، ويصدر إجراء منظما واحدا فقط في كل دور: طلب التأريض، البحث عن تفاصيل بصرية، أو الإجابة. مخرجات كل إجراء تغذي سياق القرار التالي. عندما تتراكم الأدلة الكافية، يقدم السيد إجابة نهائية.
التعلم الواقعي يعلم العميل الرئيسي متى يستكشف ومتى يتوقف. يستخدم تدريب GRPO مكافأتين بسيطتين: الصلاحية الهيكلية للأفعال المكتملة جيدا وصحة الإجابة عند الانتهاء. هذا الهدف الأدنى يوجه التنسيق المنظم متعدد الأدوار دون إشراف مكثف.
في LongTVQA وLongTVQA+، وهما معايير على مستوى الحلقات المجمعة من TVQA، يتفوق النهج الوكلي باستمرار على الخطوط الأساسية غير الوكالية. قفز GPT5-mini من 62.4٪ إلى 71.1٪ مع إطار عمل الوكلاء المتعدد. تحسن Qwen2.5-3B من 23.5٪ إلى 47.4٪ بعد تدريب التعلم الواقعي، مما يضاعف تقريبا الأداء. حتى DeepSeek-R1-671B يحقق مكاسب من التصميم الوكئي.
التأريض وحده يتفوق على خط الأساس غير الوكيل عند 69.0٪ مقابل 64.3٪، وإضافة الرؤية تدفع الدقة إلى 74.8٪.
الورقة:
تعلم كيفية بناء وكلاء الذكاء الاصطناعي الفعالين في أكاديميتنا:

الأفضل
المُتصدِّرة
التطبيقات المفضلة
