Kami membantu AI untuk melihat dunia 3D bergerak seperti yang dilakukan manusia. 🌐 Masukkan D4RT: model terpadu yang mengubah video menjadi representasi 4D lebih cepat daripada metode sebelumnya - memungkinkannya memahami ruang dan waktu. Beginilah cara kerjanya 🧵
Untuk melihat pemandangan 2D yang ditangkap dalam video, AI harus melacak setiap piksel dari setiap objek saat bergerak. 🔍️️ Menangkap tingkat geometri dan gerak ini membutuhkan proses intensif komputasi yang mengarah pada rekonstruksi yang lambat dan terfragmentasi. Tapi D4RT mengambil pendekatan yang berbeda.
D4RT mengkodekan video input ke dalam versi terkompresi, lalu memproses dan mengkueri data menggunakan dekoder ringan secara paralel. Ini membuatnya sangat cepat dan terukur - baik untuk melacak hanya beberapa poin, atau untuk merekonstruksi seluruh adegan. 🖼️
Banyak tugas 4D sekarang dapat diselesaikan dengan satu model, memungkinkan kami untuk: 👉 Memprediksi lintasan 3D piksel dengan mencari lokasinya di berbagai langkah waktu. ⏱️ Bekukan waktu dan sudut pandang kamera untuk menghasilkan struktur 3D lengkap adegan.
D4RT bahkan dapat membuat dan menyelaraskan snapshot 3D dari satu momen dari sudut pandang yang berbeda - dengan mudah memulihkan lintasan kamera. 🎥
51