بحث جديد مع @Tsinghua_Uni: Spatial-TTT. إطار عمل لبث الذكاء المكاني البصري القائم على البصر مع تدريب وقت الاختبار (TTT). يتكيف Spatial-TTT مع الأوزان السريعة لالتقاط وتنظيم الأدلة المكانية من تدفقات الفيديو الطويلة، مما يمكن النماذج من بناء ذاكرة مكانية ثلاثية الأبعاد منظمة مع مرور الوقت. أبرز النقاط التاريخية: 🔹ذاكرة بث فعالة. تعمل الأوزان السريعة كذاكرة مكانية مضغوطة مع نمو ذاكرة تحت خطية على مدى 7000+ إطار وأكثر من 40٪ في الحوسبة. 🔹آلية التنبؤ المكاني. تلتقط طبقات TTT ذات الالتفاف الزماني الثلاثي الأبعاد التوافق الهندسي والاستمرارية الزمنية. 🔹نتائج SOTA حول الفهم المكاني للفيديو على الأفق الطويل (VSI-Bench). احتلت الصحيفة المرتبة #1 في @huggingface Daily Newspapers في 13 مارس. صفحة المشروع: GitHub: الورقة: النموذج & البيانات: