Cercetări noi cu @Tsinghua_Uni: Spatial-TTT. Un cadru pentru transmiterea inteligenței spațiale bazate pe vizuale cu antrenamente în timpul testului (TTT). Spatial-TTT adaptează greutăți rapide pentru a captura și organiza dovezi spațiale din fluxuri video lungi, permițând modelelor să construiască o memorie spațială 3D structurată în timp. Momente importante: 🔹Memorie de streaming eficientă. Greutățile rapide acționează ca o memorie spațială compactă, cu o creștere subliniară a memoriei pe parcursul a 7000+ cadre și un calcul mai mic de peste 40%. 🔹Mecanism predictiv spațial. Straturile TTT cu convoluție spațiotemporală 3D surprind corespondența geometrică și continuitatea temporală. 🔹Rezultatele SOTA privind înțelegerea spațială video pe termen lung (VSI-Bench). Ziarul s-a clasat pe locul #1 în @huggingface Daily Papers pe 13 martie. Pagina proiectului: GitHub: Hârtie: Model & Date: