Min favoritartikel i år: "Videomodeller är nollskottslärare och resonerare" Det visar att videomodeller visar emergent visuellt resonemang i stor skala – de kan lösa visionsuppgifter de inte tränats för. Detta kan vara "GPT-ögonblicket" för syn. Låt oss bryta ner 👇 det
För att börja med – varför tro att videomodeller kan utveckla visuellt resonemang? Något liknande hände i texten. Vi brukade träna specifika modeller för varje uppgift – men nu har LLM:er allmän språkförståelse och kan ta sig an många uppgifter som de inte var explicit tränade för. Det är möjligt att videomodeller kan göra samma sak i stor skala.
Denna artikel mätte 18 000+ videor genererade av Veo 3 över både kvalitativa och kvantitativa uppgifter. Den fann att Veo kan uppfatta, modifiera och manipulera den visuella världen (med utgångspunkt från bild + text) – vilket visar tidiga resonemangsfärdigheter som det inte var uttryckligen tränad för. Vi tar oss an varje kategori en efter en.
👀 Perception – när Veo blir tillfrågad kan den upptäcka kanter och identifiera olika objekt i en scen. Detta innebär att den kan fungera som en segmenteringsmodell trots att den inte är tränad på just den uppgiften, vilket har några intressanta efterföljande konsekvenser. 1) "Lägg till en klar blå prick på grentippen som aravan sitter på. Arawans öga blir knallrött. Allt annat blir kolsvart." 2) "Den blå bollen börjar genast lysa. Statisk kameravinkel."
🌐 Modellering – Veo kan modellera världen (och de principer som styr den) baserat på denna uppfattning. Den visar en stark förståelse för fysik – saker som luftmotstånd och flytkraft, optiska fenomen som brytning och reflektion, samt färgblandning. 1) "Handen släpper föremålet" 2) "En gigantisk spegelpolerad metallsfär rullar genom rummet"
🤏 Manipulation – Veo kan manipulera den visuella världen baserat på denna perception och modellering. Detta möjliggör bildredigering utan bilder – tänk saker som scenkomposition, bakgrundsborttagning, stilöverföring eller till och med skicklig manipulation. 1) "Använd sunt förnuft och låt de två robothänderna som är fästa vid armarna öppna burken, som en människa skulle göra." 2) "Gör denna selfie till ett professionellt porträttfoto för LinkedIn."
🤔 Visuellt resonemang – alla ovanstående färdigheter resulterar i resonemang. Detta mäts genom att ge modellen visionsbaserade utmaningar som kräver steg-för-steg-resonemang. Tänk dig att göra analogier, lösa labyrinter eller pussel, använda verktyg eller ta dig igenom en graf. 1) "Utan att korsa någon svart gräns navigerar den grå musen från hörnet skickligt genom labyrinten genom att gå runt tills den hittar den gula osten." 2) "Modifiera det nedre högra rutnätet för att följa regeln som fastställts av de andra rutnäten. Du kan fylla celler, rensa celler eller ändra en cells färg."
Här är de goda nyheterna: visuellt resonemang blir bättre med tiden. Prestandan på många av dessa uppgifter ökade avsevärt mellan Veo 2 och Veo 3. Jag inkluderade några exempel nedan. TL; DR - "Om du väntar på korrekt fysik i videomodeller, håll dig i kö" 😂
242