Stiamo aiutando l'AI a vedere il mondo 3D in movimento come gli esseri umani. 🌐 Entra in D4RT: un modello unificato che trasforma i video in rappresentazioni 4D più velocemente rispetto ai metodi precedenti - permettendogli di comprendere spazio e tempo. Ecco come funziona 🧵
Per percepire una scena 2D catturata in video, un'AI deve tracciare ogni pixel di ogni oggetto mentre si muove. 🔍️️ Catturare questo livello di geometria e movimento richiede processi computazionalmente intensivi che portano a ricostruzioni lente e frammentate. Ma D4RT adotta un approccio diverso.
D4RT codifica i video di input in una versione compressa, quindi elabora e interroga i dati utilizzando un decodificatore leggero in parallelo. Questo lo rende estremamente veloce e scalabile - sia per tracciare solo alcuni punti, sia per ricostruire un'intera scena. 🖼️
Molti compiti 4D possono ora essere risolti con un solo modello, permettendoci di: 👉 Prevedere la traiettoria 3D di un pixel cercando la sua posizione attraverso diversi intervalli di tempo. ⏱️ Congelare il tempo e il punto di vista della telecamera per generare la struttura 3D completa di una scena.
D4RT può persino creare e allineare istantanee 3D di un singolo momento da diversi punti di vista - recuperando facilmente la traiettoria della fotocamera. 🎥
43