我特別期待的 SAM 3D 背後的一些技術: 1⃣ 現有的 3D 數據集(Objaverse-XL、ProcTHOR 等)非常適合教學「3D 先驗知識」(基本形狀和外觀)。但它們不足以完全彌補與現實世界之間的差距,因為現實場景雜亂無章,物體被遮擋、微小且通常很混亂。 2⃣ 進入我們的模型循環 3D 數據引擎:模型 ➜ 從真實圖像預測 3D ➜ 人類快速審核良好候選者(僅限是/否)➜ 審核過的 3D 返回訓練 ➜ 改進的模型重新進入循環。這是一個良性循環,提升了 3D 標註質量、標註速度和模型性能,而不需要 3D 工具或設計專業知識。 3⃣ 3D 目標是棘手的:沒有封閉形式的可微損失能完全捕捉「良好的 3D 性質」(對稱性、平滑性、完整性)。因此,我們借鑒 LLM 的做法,使用人類偏好數據進行後訓練。這種對齊在指標中幾乎不顯示(因為它們繼承了與損失相同的限制),但它顯著改善了 3D 輸出的感知質量。 更多細節請參見論文。