Yapay zekanın 3D dünyayı insanların yaptığı gibi hareket halinde görmesine yardımcı oluyoruz. 🌐 İşte D4RT ortaya çıkıyor: videoyu önceki yöntemlerden daha hızlı 4D temsillere dönüştüren birleşik bir model - mekân ve zamanı anlamasını sağlıyor. İşte böyle işliyor 🧵
Videoya çekilen 2D bir sahneyi algılamak için bir yapay zeka, hareket eden her nesnenin her pikselini takip etmelidir. 🔍️️ Bu seviyede geometri ve hareket yakalamak, yavaş ve parçalı yeniden yapılandırmalara yol açan hesaplama açısından yoğun süreçler gerektirir. Ama D4RT farklı bir yaklaşım benimser.
D4RT, giriş videolarını sıkıştırılmış bir versiyona kodlar, ardından veriyi paralel olarak hafif bir kod çözücü kullanarak işler ve sorgular. Bu da oyunu son derece hızlı ve ölçeklenebilir kılar - sadece birkaç noktayı takip etmek ya da tüm sahneyi yeniden oluşturmak için. 🖼️
Birçok 4D görev artık tek bir modelle çözülebiliyor ve böylece şunları yapabiliyoruz: 👉 Bir pikselin farklı zaman adımlarında konumunu araştırarak 3D yörüngesini tahmin edin. ⏱️ Zamanı ve kamera bakış açısını dondurarak sahnenin tam 3D yapısını oluşturun.
D4RT, farklı bakış açılarından tek bir anın 3D anlık görüntülerini oluşturup hizalayabiliyor - kameranın yörüngesini kolayca geri kazanıyor. 🎥
39