Nový výzkum s @Tsinghua_Uni: Spatial-TTT. Rámec pro streamování vizuálně založené prostorové inteligence s tréninkem v době testu (TTT). Spatial-TTT adaptuje rychlé váhy pro zachycení a organizaci prostorových důkazů z dlouhých video streamů, což umožňuje modelům budovat strukturovanou 3D prostorovou paměť v průběhu času. Hlavní body: 🔹Efektivní streamovací paměť. Rychlé váhy fungují jako kompaktní prostorová paměť s růstem sublineární paměťi přes 7000+ snímků a více než 40 % nižší výpočetní kapacitou. 🔹Prostorově prediktivní mechanismus. TTT vrstvy s 3D prostorově-časovou konvolucí zachycují geometrickou korespondenci a časovou kontinuitu. 🔹Výsledky SOTA v oblasti dlouhodobého video prostorového porozumění (VSI-Bench). Noviny se 13. března umístily na #1 v @huggingface Daily Papers. Stránka projektu: GitHub: Článek: Model a data: