مؤخرا @supermemory تحقيق 99٪ على LongMemEval. المشكلة أن اختبارات الذاكرة تم إنشاؤها عندما كان للنماذج الكبيرة نافذة سياق صغيرة جدا. على سبيل المثال، LongMemEval_M هو ~1.5 مليون رمز. وهو تقريبا داخل نافذة السياق في أوبوس 4.6. من ما فهمته، أفضل معيار حاليا هو BEAM مع نافذة سياق 10 ميجاوات. لذا أنا أقيم جميع أنظمة الذاكرة الجديدة بناء على درجتها هناك. متحمس لمعرفة كيف ستحصل @supermemory النتائج! أنا متأكد أنه سينجح!