Min favorittartikkel i år: «Videomodeller er nullskudd-elever og resonnerere» Det illustrerer at videomodeller viser fremvoksende visuell resonnering i stor skala – de kan løse visjonsoppgaver de ikke er trent for. Dette kan være «GPT-øyeblikket» for synet. La oss bryte det ned 👇
For å begynne med – hvorfor tro at videomodeller kan utvikle visuell resonnement? Noe lignende skjedde i tekstmeldingen. Vi pleide å trene spesifikke modeller for hver oppgave – men nå har LLM-er generell språkforståelse og kan løse mange oppgaver de ikke var eksplisitt trent for. Det er mulig at videomodeller kan gjøre det samme i stor skala.
Denne artikkelen målte 18 000+ videoer generert av Veo 3 på tvers av både kvalitative og kvantitative oppgaver. Den fant at Veo kan oppfatte, endre og manipulere den visuelle verdenen (med utgangspunkt i bilde + tekst) – noe som viser tidlige resonnementferdigheter som den ikke var eksplisitt trent for. Vi tar for oss hver kategori én etter én.
👀 Persepsjon – når han blir bedt om det, kan Veo oppdage kanter og identifisere distinkte objekter i en scene. Dette betyr at den kan fungere som en segmenteringsmodell til tross for at den ikke er trent på den oppgaven, noe som har noen interessante implikasjoner etterpå. 1) "Legg til en lys blå prikk på tuppen av grenen som araen sitter på. Araens øye blir knallrødt. Alt annet blir bekmørkt." 2) "Den blå kulen begynner umiddelbart å gløde. Statisk kameraperspektiv."
🌐 Modellering – Veo kan modellere verden (og prinsippene som styrer den) basert på denne oppfatningen. Det viser en sterk forståelse av fysikk – ting som luftmotstand og oppdrift, optiske fenomener som brytning og refleksjon, og fargeblanding. 1) "Hånden slipper objektet" 2) "En gigantisk speilpolert metallkule ruller gjennom rommet"
🤏 Manipulasjon – Veo kan manipulere den visuelle verden basert på denne persepsjonen og modelleringen. Dette muliggjør null-skudd bilderedigering – tenk ting som scenekomposisjon, bakgrunnsfjerning, stiloverføring eller til og med fingerferdig manipulering. 1) "Bruk sunn fornuft og la de to robothendene festet til armene åpne glasset, slik et menneske ville gjort." 2) «Gjør denne selfien om til et profesjonelt portrettbilde for LinkedIn.»
🤔 Visuell resonnering – alle de ovennevnte ferdighetene resulterer i resonnement. Dette måles ved å gi modellen visjonsbaserte utfordringer som krever trinnvis resonnering. Tenk å lage analogier, løse labyrinter eller gåter, bruke verktøy eller gå gjennom en graf. 1) "Uten å krysse noen svart grense, navigerer den grå musen fra hjørnet dyktig gjennom labyrinten ved å gå rundt til den finner den gule osten." 2) "Endre rutenettet nederst til høyre for å følge regelen etablert av de andre rutenettet. Du kan fylle celler, rydde celler, eller endre fargen på en celle."
Her er den gode nyheten: visuell resonnering blir bedre over tid. Ytelsen på mange av disse oppgavene økte betydelig mellom Veo 2 og Veo 3. Jeg har inkludert noen eksempler nedenfor. TL; DR - "Hvis du venter på nøyaktig fysikk i videomodeller, hold deg i kø" 😂
222