Neue Forschung mit @Tsinghua_Uni: Spatial-TTT. Ein Rahmenwerk für das Streaming von visuell basierter räumlicher Intelligenz mit Testzeit-Training (TTT). Spatial-TTT passt schnelle Gewichte an, um räumliche Beweise aus langen Video-Streams zu erfassen und zu organisieren, wodurch Modelle im Laufe der Zeit eine strukturierte 3D-Räumliche Gedächtnis aufbauen können. Höhepunkte: 🔹Effizientes Streaming-Gedächtnis. Schnelle Gewichte fungieren als kompaktes räumliches Gedächtnis mit sublinearem Wachstum über 7000+ Frames und mehr als 40% geringeren Rechenaufwand. 🔹Räumlich-prädiktiver Mechanismus. TTT-Schichten mit 3D-spatiotemporaler Faltung erfassen geometrische Entsprechungen und zeitliche Kontinuität. 🔹SOTA-Ergebnisse im Bereich des räumlichen Verständnisses von langen Video-Horizonten (VSI-Bench). Das Papier belegte am 13. März den 1. Platz bei @huggingface Daily Papers. Projektseite: GitHub: Papier: Modell & Daten: