Nowe badania z @Tsinghua_Uni: Spatial-TTT. Ramka do strumieniowego przetwarzania wizualnej inteligencji przestrzennej z treningiem w czasie testu (TTT). Spatial-TTT dostosowuje szybkie wagi, aby uchwycić i zorganizować dowody przestrzenne z długich strumieni wideo, umożliwiając modelom budowanie strukturalnej pamięci przestrzennej 3D w czasie. Najważniejsze punkty: 🔹Efektywna pamięć strumieniowa. Szybkie wagi działają jako kompaktowa pamięć przestrzenna z subliniowym wzrostem pamięci w ponad 7000 klatek i o ponad 40% niższym obliczeniu. 🔹Mechanizm predykcji przestrzennej. Warstwy TTT z 3D spatiotemporal convolution uchwytują geometryczną korespondencję i ciągłość czasową. 🔹Wyniki SOTA w zakresie zrozumienia przestrzennego wideo na długim horyzoncie (VSI-Bench). Artykuł zajął 1. miejsce w codziennych publikacjach @huggingface 13 marca. Strona projektu: GitHub: Artykuł: Model i dane: