We helpen AI om de 3D-wereld in beweging te zien zoals mensen dat doen. 🌐 Maak kennis met D4RT: een verenigd model dat video sneller omzet in 4D-representaties dan eerdere methoden - waardoor het ruimte en tijd kan begrijpen. Zo werkt het 🧵
Om een 2D-scène vastgelegd op video waar te nemen, moet een AI elke pixel van elk object volgen terwijl het beweegt. 🔍️️ Het vastleggen van dit niveau van geometrie en beweging vereist computationeel intensieve processen die leiden tot trage en gefragmenteerde reconstructies. Maar D4RT neemt een andere benadering.
D4RT codeert invoervideo's naar een gecomprimeerde versie, en verwerkt en vraagt de gegevens vervolgens op met een lichte decoder in parallel. Dit maakt het extreem snel en schaalbaar - of het nu gaat om het volgen van slechts een paar punten, of om het reconstrueren van een hele scène. 🖼️
Veel 4D-taken kunnen nu met één model worden opgelost, waardoor we: 👉 De 3D-trajectorie van een pixel kunnen voorspellen door naar zijn locatie over verschillende tijdstappen te kijken. ⏱️ De tijd en het camerastandpunt kunnen bevriezen om de complete 3D-structuur van een scène te genereren.
D4RT kan zelfs 3D-opnamen van een enkel moment vanuit verschillende perspectieven creëren en uitlijnen - en gemakkelijk de traject van de camera herstellen. 🎥
62