$A^3$-bench
معيار جديد يقيم الآليات المدفوعة بالذاكرة في التفكير العلمي. يقيس كيف تقوم النماذج بتفعيل "المراسي" (الصيغ الأساسية) و"الجاذبات" (المخططات/الأمثلة) أثناء الاستنتاج—متجاوزة مجرد التحقق من الإجابات النهائية.
شركة ميتا أصدرت للتو اختبار MapAnything على موقع Hugging Face
تقييم شامل لإعادة البناء ثلاثي الأبعاد عبر مهام الستيريو متعددة الرؤية، وأعماق، ووضعيات الكاميرا. قم بمقارنة نماذج التغذية التقدمية على مشاهد واقعية متنوعة باستخدام مقاييس موحدة.