Pomagamy AI dostrzegać świat 3D w ruchu tak, jak robią to ludzie. 🌐 Wprowadź D4RT: zintegrowany model, który przekształca wideo w reprezentacje 4D szybciej niż wcześniejsze metody - umożliwiając mu zrozumienie przestrzeni i czasu. Tak to działa 🧵
Aby dostrzec scenę 2D uchwyconą na wideo, AI musi śledzić każdy piksel każdego obiektu, gdy się porusza. 🔍️️ Uchwycenie tego poziomu geometrii i ruchu wymaga intensywnych obliczeniowo procesów, co prowadzi do wolnych i fragmentarycznych rekonstrukcji. Ale D4RT przyjmuje inne podejście.
D4RT koduje wideo wejściowe w skompresowanej wersji, a następnie przetwarza i zapytuje dane za pomocą lekkiego dekodera równolegle. To sprawia, że jest niezwykle szybki i skalowalny - niezależnie od tego, czy śledzi tylko kilka punktów, czy rekonstruuje całą scenę. 🖼️
Wiele zadań 4D można teraz rozwiązać za pomocą jednego modelu, co pozwala nam: 👉 Przewidzieć 3D trajektorię piksela, szukając jego lokalizacji w różnych krokach czasowych. ⏱️ Zatrzymać czas i punkt widzenia kamery, aby wygenerować pełną 3D strukturę sceny.
D4RT może nawet tworzyć i wyrównywać 3D zdjęcia jednego momentu z różnych punktów widzenia - łatwo odzyskując trajektorię kamery. 🎥
46