@Tsinghua_Uni ile yeni araştırma: Spatial-TTT. Test zamanı eğitimi (TTT) ile görsel tabanlı mekânsal zekayı akış için bir çerçeve. Spatial-TTT, uzun video akışlarından mekansal kanıtları yakalamak ve düzenlemek için hızlı ağırlıkları uyarlayarak modellerin zamanla yapılandırılmış 3D uzaysal bellek oluşturmasını sağlar. Öne Çıkanlar: 🔹Verimli akış belleği. Hızlı ağırlıklar, 7000+ kare boyunca sublineer bellek büyümesi ve %40'dan fazla daha düşük hesaplama kapasitesiyle kompakt uzaysal bellek olarak görev yapar. 🔹Mekansal öngörücü mekanizma. 3D uzaylı-zamansal konvolüsyona sahip TTT katmanları, geometrik uyumları ve zamansal sürekliliği yakalar. 🔹SOTA sonuçları, uzun ufuk video mekansal anlama (VSI-Bench) üzerine. Gazete, 13 Mart'ta @huggingface Daily Papers'ta #1 sırada yer aldı. Proje sayfası: GitHub: Makale: Model ve Veri: