Estamos a ajudar a IA a ver o mundo 3D em movimento como os humanos. 🌐 Apresentamos o D4RT: um modelo unificado que transforma vídeo em representações 4D mais rapidamente do que os métodos anteriores - permitindo-lhe compreender o espaço e o tempo. É assim que funciona 🧵
Para perceber uma cena 2D capturada em vídeo, uma IA deve rastrear cada pixel de cada objeto à medida que se move. 🔍️️ Capturar este nível de geometria e movimento requer processos computacionalmente intensivos que levam a reconstruções lentas e fragmentadas. Mas o D4RT adota uma abordagem diferente.
O D4RT codifica vídeos de entrada em uma versão comprimida, depois processa e consulta os dados usando um decodificador leve em paralelo. Isso torna-o extremamente rápido e escalável - seja para rastrear apenas alguns pontos, ou para reconstruir toda uma cena. 🖼️
Muitas tarefas 4D podem agora ser resolvidas com um único modelo, permitindo-nos: 👉 Prever a trajetória 3D de um pixel procurando sua localização em diferentes etapas de tempo. ⏱️ Congelar o tempo e o ponto de vista da câmera para gerar a estrutura 3D completa de uma cena.
O D4RT pode até criar e alinhar instantâneas 3D de um único momento a partir de diferentes pontos de vista - recuperando facilmente a trajetória da câmara. 🎥
49