Nouvelle recherche avec @Tsinghua_Uni : Spatial-TTT. Un cadre pour le streaming d'intelligence spatiale basée sur la vision avec l'entraînement au moment du test (TTT). Spatial-TTT adapte des poids rapides pour capturer et organiser des preuves spatiales à partir de longs flux vidéo, permettant aux modèles de construire une mémoire spatiale 3D structurée au fil du temps. Points forts : 🔹Mémoire de streaming efficace. Les poids rapides agissent comme une mémoire spatiale compacte avec une croissance de mémoire sous-linéaire sur plus de 7000 images et plus de 40 % de calcul en moins. 🔹Mécanisme spatial-prédictif. Les couches TTT avec convolution spatiotemporelle 3D capturent la correspondance géométrique et la continuité temporelle. 🔹Résultats SOTA sur la compréhension spatiale vidéo à long terme (VSI-Bench). L'article a été classé #1 sur @huggingface Daily Papers le 13 mars. Page du projet : GitHub : Article : Modèle & Données :