Beberapa teknologi di balik SAM 3D yang sangat saya sukai: 1⃣ Kumpulan data 3D yang ada (Objaverse-XL, ProcTHOR, dll.) sangat bagus untuk mengajarkan "3D priors" (bentuk dasar & penampilan). Tapi itu tidak cukup untuk sepenuhnya menjembatani kesenjangan ke dunia nyata, di mana adegan berantakan, objek tersumbat, kecil, dan umumnya berantakan. 2⃣Masukkan mesin data 3D model-in-the-loop kami: model ➜ memprediksi 3D dari gambar nyata ➜ manusia dengan cepat memeriksa kandidat yang baik (ya/tidak saja) ➜ 3D yang diperiksa kembali ke pelatihan ➜ model yang ditingkatkan masuk kembali ke lingkaran. Siklus bajik yang meningkatkan kualitas anotasi 3D, kecepatan pelabelan, dan kinerja model, tanpa memerlukan alat 3D atau keahlian desain. 3⃣Tujuan 3D rumit: tidak ada kerugian yang dapat dibedakan bentuk tertutup yang sepenuhnya menangkap "3D yang baik" (simetri, kehalusan, kelengkapan). Jadi kami meminjam dari buku pedoman LLM dan pasca-pelatihan dengan data preferensi manusia. Penyelarasan ini hampir tidak muncul dalam metrik (yang mewarisi keterbatasan yang sama dengan kerugian) tetapi secara dramatis meningkatkan kualitas output 3D yang dirasakan oleh mereka. Detail lebih lanjut dalam koran.