Nuove ricerche con @Tsinghua_Uni: Spatial-TTT. Un framework per lo streaming dell'intelligenza spaziale basata su immagini con test-time training (TTT). Spatial-TTT adatta pesi rapidi per catturare e organizzare prove spaziali da lunghi flussi video, consentendo ai modelli di costruire una memoria spaziale 3D strutturata nel tempo. Punti salienti: 🔹Memoria di streaming efficiente. I pesi rapidi fungono da memoria spaziale compatta con crescita della memoria sublineare su oltre 7000 frame e oltre il 40% di calcolo in meno. 🔹Meccanismo spaziale-predittivo. I layer TTT con convoluzione spaziotemporale 3D catturano la corrispondenza geometrica e la continuità temporale. 🔹Risultati SOTA sulla comprensione spaziale video a lungo termine (VSI-Bench). Il documento si è classificato al #1 su @huggingface Daily Papers il 13 marzo. Pagina del progetto: GitHub: Documento: Modello e Dati: