Ajutăm AI să vadă lumea 3D în mișcare, așa cum o fac oamenii. 🌐 Intră în scenă D4RT: un model unificat care transformă video în reprezentări 4D mai rapid decât metodele anterioare – permițându-i să înțeleagă spațiul și timpul. Așa funcționează 🧵
Pentru a percepe o scenă 2D surprinsă pe video, o inteligență artificială trebuie să urmărească fiecare pixel al fiecărui obiect pe măsură ce acesta se mișcă. 🔍️️ Capturarea acestui nivel de geometrie și mișcare necesită procese computaționale intensive care duc la reconstrucții lente și fragmentate. Dar D4RT abordează diferit.
D4RT codifică videoclipurile de intrare într-o versiune comprimată, apoi procesează și interoghează datele folosind un decodor ușor în paralel. Acest lucru îl face extrem de rapid și scalabil – fie pentru a urmări doar câteva puncte, fie pentru a reconstrui o scenă întreagă. 🖼️
Multe sarcini 4D pot fi rezolvate acum cu un singur model, permițându-ne să: 👉 Prezice traiectoria 3D a unui pixel căutând locația acestuia pe diferiți pași de timp. ⏱️ Îngheață timpul și punctul de vedere al camerei pentru a genera structura 3D completă a unei scene.
D4RT poate chiar crea și alinia instantanee 3D ale unui singur moment din diferite puncte de vedere – recuperând cu ușurință traiectoria camerei. 🎥
47