Ny forskning med @Tsinghua_Uni: Spatial-TTT. Et rammeverk for å strømme visuell basert romlig intelligens med testtidstrening (TTT). Spatial-TTT tilpasser raske vekter for å fange og organisere romlige bevis fra lange videostrømmer, noe som gjør det mulig for modeller å bygge strukturert 3D-romlig hukommelse over tid. Høydepunkter: 🔹Effektivt strømmingsminne. Raske vekter fungerer som kompakt romminne med sublineær minnevekst over 7000+ rammer og mer enn 40 % lavere beregning. 🔹Romlig-prediktiv mekanisme. TTT-lag med 3D romlig og tidslig konvolusjon fanger geometrisk korrespondanse og tidsmessig kontinuitet. 🔹SOTA-resultater om langhorisontal videoromlig forståelse (VSI-Bench). Avisen ble rangert som #1 på @huggingface dagsavisene 13. mars. Prosjektside: GitHub: Artikkel: Modell og data: