SAM 3D'nin arkasındaki bazı teknolojilerden özellikle heyecanlandığım: 1⃣ Mevcut 3D veri setleri (Objaverse-XL, ProcTHOR vb.) "3D öncelikleri" (temel şekil ve görünüm) öğretmek için harikadır. Ama gerçek dünyaya tamamen köprü kurmak için yeterli değiller; sahneler dağınık, nesneler kapalı, küçük ve genel olarak dağınık. 2⃣Model-in-the-loop 3D veri motorumuza girin: model ➜ gerçek görüntülerden 3D tahmin eder ➜ insanlar iyi adayları hızlıca değerlendirir (evet/hayır) ➜ denetlenmiş 3D tekrar eğitime girer ➜ geliştirilmiş model tekrar döngüye girer. 3D annotasyon kalitesini, etiketleme hızını ve model performansını artıran, 3D araçlar veya tasarım uzmanlığı gerektirmeden erdemli bir döngü. 3⃣3D hedefler zordur: kapalı biçimli türevlenebilir kayıp "iyi 3Dness" (simetriler, pürüzsüzlük, tamlık) tam olarak yakalayamıyor. Bu yüzden LLM oyun kitabından ödünç alır ve insan tercihi verileriyle eğitim sonrası yaparız. Bu hizalama metriklerde (kayıplarla aynı sınırlamaları miras alanlar) neredeyse hiç görünmez ama 3D çıktıların algılanan kalitesini dramatik şekilde iyileştirir. Daha fazla detay makalede.