Noe av teknologien bak SAM 3D som jeg er spesielt begeistret for: 1⃣ Eksisterende 3D-datasett (Objaverse-XL, ProcTHOR, osv.) er flotte for å lære "3D-forutsetninger" (grunnleggende form og utseende). Men de er ikke nok til å bygge full bro til den virkelige verden, hvor scenene er rotete, objekter er tildekket, små og generelt rotete. 2⃣Inn kommer vår modell-i-løkken 3D-datamotor: modell ➜ forutsier 3D fra ekte bilder ➜ mennesker vurderer raskt gode kandidater (kun ja/nei) ➜ vurdert 3D går tilbake i trening ➜ forbedret modell går inn i løkken igjen. En god syklus som øker 3D-annotasjonskvalitet, merkehastighet og modellytelse, uten å kreve 3D-verktøy eller designkompetanse. 3⃣3D-mål er vanskelige: ingen lukket form deriverbar tap fanger fullt ut «god 3D-kvalitet» (symmetrier, jevnhet, fullstendighet). Så vi låner fra LLM-playbooken og ettertrer med menneskelige preferansedata. Denne justeringen vises knapt i målinger (som arver de samme begrensningene som tapene), men den forbedrer dramatisk den opplevde kvaliteten på 3D-utgangene. Flere detaljer i avisen.