Pomáháme AI vidět 3D svět v pohybu tak, jak to dělají lidé. 🌐 Přichází D4RT: jednotný model, který převádí video na 4D reprezentace rychleji než předchozí metody – což mu umožňuje chápat prostor a čas. Takto to funguje 🧵
Aby umělá inteligence vnímala 2D scénu zachycenou na videu, musí sledovat každý pixel každého objektu při pohybu. 🔍️️ Zachycení této úrovně geometrie a pohybu vyžaduje výpočetně náročné procesy, které vedou k pomalým a fragmentovaným rekonstrukcím. Ale D4RT k tomu přistupuje jinak.
D4RT kóduje vstupní videa do komprimované verze a následně zpracovává a dotazuje data pomocí lehkého dekodéru paralelně. Díky tomu je extrémně rychlý a škálovatelný – ať už jde o sledování jen několika bodů, nebo pro rekonstrukci celé scény. 🖼️
Mnoho 4D úkolů lze nyní řešit jedním modelem, což nám umožňuje: 👉 Předpověďte 3D trajektorii pixelu tím, že budete hledat jeho polohu napříč různými časovými kroky. ⏱️ Zastavte čas a záběr kamery, abyste vytvořili kompletní 3D strukturu scény.
D4RT dokonce dokáže vytvořit a zarovnat 3D snímky jednoho okamžiku z různých úhlů pohledu – což snadno obnoví trajektorii kamery. 🎥
42