DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Mijn favoriete paper dit jaar: "Videomodellen zijn zero-shot leraren en redenaars" Het illustreert dat videomodellen op grote schaal opkomende visuele redenering tonen - ze kunnen visuele taken oplossen waarvoor ze niet zijn getraind. Dit kan het "GPT-moment" voor visie zijn. Laten we het ontleden 👇

Om te beginnen - waarom geloven dat videomodellen visueel redeneren kunnen ontwikkelen? Een vergelijkbaar iets gebeurde met tekst. We trainden vroeger specifieke modellen voor elke taak - maar nu hebben LLM's een algemeen taalbegrip en kunnen ze veel taken aan die ze niet expliciet voor zijn getraind. Het is haalbaar dat videomodellen hetzelfde op grote schaal kunnen doen.

Dit document heeft 18k+ video's gemeten die door Veo 3 zijn gegenereerd, zowel bij kwalitatieve als kwantitatieve taken. Het ontdekte dat Veo de visuele wereld kan waarnemen, aanpassen en manipuleren (beginnende met beeld + tekst prompts) - wat vroege redeneervaardigheden laat zien waarvoor het niet expliciet is getraind. We zullen elke categorie één voor één aanpakken.

👀 Perceptie - wanneer gevraagd, kan Veo randen detecteren en onderscheid maken tussen verschillende objecten in een scène. Dit betekent dat het kan functioneren als een segmentatiemodel, ondanks dat het niet op die taak is getraind, wat enkele interessante downstream implicaties heeft. 1) "Voeg een heldere blauwe stip toe op de punt van de tak waarop de ara zit. Het oog van de ara wordt felrood. Alles andere wordt pikzwart." 2) "De blauwe bal begint onmiddellijk te gloeien. Statische cameraperspectief."

🌐 Modelleren - Veo kan de wereld (en de principes die deze beheersen) modelleren op basis van deze waarneming. Het toont een sterk begrip van de natuurkunde - dingen zoals luchtweerstand en drijfvermogen, optische verschijnselen zoals breking en reflectie, en kleurmenging. 1) "De hand laat het object los" 2) "Een enorme spiegelglanzende metalen bol rolt door de kamer"

🤏 Manipulatie - Veo kan de visuele wereld manipuleren op basis van deze waarneming en modellering. Dit maakt zero-shot beeldbewerkingsopdrachten mogelijk - denk aan dingen zoals scène-compositie, achtergrondverwijdering, stijloverdracht of zelfs behendige manipulatie. 1) "Gebruik gezond verstand en laat de twee robotarmen met handen de pot openen, zoals een mens zou doen." 2) "Zet deze selfie om in een professionele profielfoto voor LinkedIn."

🤔 Visueel redeneren - al deze vaardigheden resulteren in redeneren. Dit wordt gemeten door het model visuele uitdagingen te geven die stap-voor-stap redeneren vereisen. Denk aan het maken van analogieën, het oplossen van doolhoven of puzzels, het gebruiken van gereedschappen, of het doorkruisen van een grafiek. 1) "Zonder enige zwarte grens te kruisen, navigeert de grijze muis uit de hoek vaardig door het doolhof door eromheen te lopen totdat hij de gele kaas vindt." 2) "Wijzig het grid rechtsonder om te voldoen aan de regel die door de andere grids is vastgesteld. Je kunt cellen vullen, cellen leegmaken of de kleur van een cel veranderen."

Hier is het geweldige nieuws: visueel redeneren wordt in de loop van de tijd beter. De prestaties op veel van deze taken zijn aanzienlijk verbeterd tussen Veo 2 en Veo 3. Ik heb hieronder een paar voorbeelden opgenomen. TL;DR - "Als je wacht op nauwkeurige fysica in videomodellen, blijf dan in de rij" 😂

221

Boven

Positie

Favorieten