Penelitian baru dengan @Tsinghua_Uni: Spasial-TTT. Kerangka kerja untuk streaming kecerdasan spasial berbasis visual dengan pelatihan waktu pengujian (TTT). Spasial-TTT mengadaptasi bobot cepat untuk menangkap dan mengatur bukti spasial dari aliran video yang panjang, memungkinkan model membangun memori spasial 3D terstruktur dari waktu ke waktu. Sorotan: 🔹Memori streaming yang efisien. Bobot cepat bertindak sebagai memori spasial yang ringkas dengan pertumbuhan memori sublinier lebih dari 7000+ frame dan komputasi lebih dari 40% lebih rendah. 🔹Mekanisme prediktif spasial. Lapisan TTT dengan konvolusi spatiotemporal 3D menangkap korespondensi geometris dan kontinuitas temporal. 🔹Hasil SOTA pada pemahaman spasial video cakrawala panjang (VSI-Bench). Surat kabar ini menempati peringkat #1 di @huggingface Daily Papers pada 13 Maret. Halaman proyek: GitHub: Kertas: Model & Data: