المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 الاستدلال كواجهة للتخزين طويل السياق
في منشورنا الأخير (AMemGym)، أكدنا على أهمية التقييم التفاعلي. الآن، نطبقه على أحدث النماذج "المثالية" طويلة السياق مثل GPT-5.2.
▪️ السؤال الكبير: هل حللنا مهام بعيدة الأفق؟
▪️ الإجابة: ليس تماما. الأمر يتعلق بمقايضة الاستدلال والحوسبة.
غوص عميق في آليات الذاكرة للسياق 👇 الطويل الأصلي
1. ليس فقط نموذج العمود الفقري
يظهر مؤشر GPT-5.2 مكاسب هائلة على مؤشرات MRCR. لكن عندما فككنا المتغيرات، وجدنا أن جزءا كبيرا من هذا المكاسب يأتي من جهد التفكير العالي، وليس فقط نموذج العمود الفقري.
2. معادلة الذاكرة
طريقة جديدة لعرض تكلفة التفكير في استرجاع الذاكرة:
[ أقل جهد للتفكير ∝ 1 / جودة الذاكرة ]
يعمل التفكير كمحرك بحث تكيفي. يدفع تكلفة الحوسبة ل "إعادة تجليد" المعلومات التي لم تخزن بكفاءة.
3. نتائج AMemGym
اختبرنا بعض النماذج الرائدة على AMemGym (اختبار الذاكرة التفاعلية ICLR'26) لتقييم الأداء الواقعي على الأفق البعيد.
🔹 الاستدلال هو مضاعف: الجهد العالي للاستدلال أمر حاسم للارتباطات الديناميكية عالية المرتبة الديناميكية.
🔹 التخصيص صعب: حتى النماذج الرائدة تواجه صعوبة في الحفاظ على حالة المستخدم على مدى آفاق طويلة.
🔹 الأوزان المفتوحة: يظهر GLM-4.7 إمكانات قوية، منافسا النماذج المغلقة.
4. المستقبل (ما وراء المحاكاة): الأبواب ذات الاتجاهين × مقياس وقت الاختبار
يمكن تحسين الذاكرة في الواقع من خلال دمج استمرارية الذاكرة "غير الفقدانية" مع الحوسبة التكيفية في وقت الاختبار. من خلال إنفاق حوسبة عالية للتحقق من المنطق واسترجاع البيانات العميقة، يمكن للنماذج/الوكلاء توليد تغذية راجعة مراقبة ذاتية لتحسين هياكل الذاكرة. هذا يحول التفكير المكلف اليوم إلى اختصارات معرفية فعالة للغد.
📄 التحليل الكامل: ...



الأفضل
المُتصدِّرة
التطبيقات المفضلة
