Nous aidons l'IA à voir le monde 3D en mouvement comme les humains. 🌐 Entrez D4RT : un modèle unifié qui transforme la vidéo en représentations 4D plus rapidement que les méthodes précédentes - lui permettant de comprendre l'espace et le temps. Voici comment cela fonctionne 🧵
Pour percevoir une scène 2D capturée sur vidéo, une IA doit suivre chaque pixel de chaque objet alors qu'il se déplace. 🔍️️ Capturer ce niveau de géométrie et de mouvement nécessite des processus intensifs en calcul, ce qui entraîne des reconstructions lentes et fragmentées. Mais D4RT adopte une approche différente.
D4RT encode les vidéos d'entrée en une version compressée, puis traite et interroge les données à l'aide d'un décodeur léger en parallèle. Cela le rend extrêmement rapide et évolutif - que ce soit pour suivre juste quelques points ou pour reconstruire une scène entière. 🖼️
De nombreuses tâches 4D peuvent désormais être résolues avec un seul modèle, nous permettant de : 👉 Prédire la trajectoire 3D d'un pixel en recherchant sa position à travers différentes étapes temporelles. ⏱️ Geler le temps et le point de vue de la caméra pour générer la structure 3D complète d'une scène.
D4RT peut même créer et aligner des instantanés 3D d'un seul moment sous différents angles - récupérant facilement la trajectoire de la caméra. 🎥
54