Vi hjelper AI med å se 3D-verdenen i bevegelse slik mennesker gjør. 🌐 Inn kommer D4RT: en samlet modell som gjør video om til 4D-representasjoner raskere enn tidligere metoder – noe som gjør det mulig å forstå rom og tid. Slik fungerer 🧵 det
For å oppfatte en 2D-scene fanget på video, må en AI spore hver piksel av hvert objekt mens det beveger seg. 🔍️️ Å fange dette nivået av geometri og bevegelse krever beregningsintensive prosesser som fører til langsomme og fragmenterte rekonstruksjoner. Men D4RT tar en annen tilnærming.
D4RT koder inndatavideoer til en komprimert versjon, og behandler og spør deretter dataene ved hjelp av en lettvektsdekoder parallelt. Dette gjør det ekstremt raskt og skalerbart – enten for å spore bare noen få punkter, eller for å rekonstruere en hel scene. 🖼️
Mange 4D-oppgaver kan nå løses med én modell, noe som gjør det mulig for oss å: 👉 Forutsi en piksels 3D-bane ved å se etter dens posisjon over ulike tidstrinn. ⏱️ Frys tiden og kameravinkelen for å generere en scenes komplette 3D-struktur.
D4RT kan til og med lage og justere 3D-bilder av et enkelt øyeblikk fra ulike synsvinkler – og enkelt gjenopprette kameraets bane. 🎥
50