Нове дослідження з @Tsinghua_Uni: Просторовий TTT. Фреймворк для потокового візуального просторового інтелекту з навчанням під час тестування (TTT). Просторовий TTT адаптує швидкі ваги для збору та організації просторових доказів із довгих відеопотоків, що дозволяє моделям з часом будувати структуровану 3D-просторову пам'ять. Основні моменти: 🔹Ефективна стрімінгова пам'ять. Швидкі ваги працюють як компактна просторова пам'ять із сублінійним зростанням пам'яті понад 7000+ кадрів і більш ніж на 40% меншою обчислювальною здатністю. 🔹Просторово-прогнозний механізм. Шари TTT з 3D просторово-часовою згорткою фіксують геометричну відповідність і часову безперервність. 🔹Результати SOTA щодо просторового розуміння відео з довготривалим горизонтом (VSI-Bench). Газета посіла #1 місце у @huggingface Daily Papers 13 березня. Сторінка проєкту: GitHub: Стаття: Модель і дані: