DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Lucrarea mea preferată din acest an: "Modelele video sunt învățăcele și raționalele zero-shot" Ilustrează că modelele video arată raționamentul vizual emergent la scară largă – pot rezolva sarcini vizuale pentru care nu au fost instruiți. Acesta ar putea fi "momentul GPT" pentru vedere. Hai să descompunem 👇

Pentru început - de ce să crezi că modelele video ar putea dezvolta raționament vizual? Ceva similar s-a întâmplat prin mesaje. Obișnuiam să antrenăm modele specifice pentru fiecare sarcină – dar acum, LLM-urile au o înțelegere generală a limbajului și pot aborda multe sarcini pentru care nu au fost instruite explicit. Este fezabil ca modelele video să facă același lucru la scară largă.

Această lucrare a măsurat 18k+ videoclipuri generate de Veo 3 atât în sarcini calitative, cât și cantitative. S-a descoperit că Veo poate percepe, modifica și manipula lumea vizuală (pornind de la indicații imagini + text) – evidențiind abilități timpurii de raționament pentru care nu a fost antrenat explicit. Vom aborda fiecare categorie una câte una.

👀 Percepție - atunci când este solicitat, Veo poate detecta marginile și identifica obiecte distincte într-o scenă. Aceasta înseamnă că poate funcționa ca un model de segmentare, chiar dacă nu este antrenat pentru acea sarcină, ceea ce are unele implicații interesante ulterior. 1) "Adaugă un punct albastru aprins pe vârful ramurii pe care stă ara. Ochiul ara-ului devine roșu aprins. Tot restul devine complet întunecat." 2) "Mingea albastră începe instantaneu să strălucească. Perspectiva statică a camerei."

🌐 Modelare - Veo poate modela lumea (și principiile care o guvernează) pe baza acestei percepții. Demonstrează o înțelegere solidă a fizicii – lucruri precum rezistența aerului și flotabilitatea, fenomene optice precum refracția și reflexia, și amestecul culorilor. 1) "Mâna eliberează obiectul" 2) "O sferă uriașă metalică de polițire oglindă se rostogolește prin cameră"

🤏 Manipulare - Veo poate manipula lumea vizuală bazându-se pe această percepție și modelare. Acest lucru permite sarcini de editare a imaginii fără cadre – gândește-te la lucruri precum compunerea scenei, îndepărtarea fundalului, transferul de stil sau chiar manipularea abilă a imaginilor. 1) "Folosiți bunul simț și deschideți borcanul cu cele două mâini robotizate atașate de brațe, așa cum ar face un om." 2) "Transformă acest selfie într-o fotografie profesională pentru LinkedIn."

🤔 Raționamentul vizual - toate abilitățile de mai sus duc la raționament. Acest lucru se măsoară prin oferirea de provocări bazate pe viziune care necesită raționament pas cu pas. Gândește-te la a face analogii, a rezolva labirinturi sau puzzle-uri, a folosi unelte sau a parcurge un grafic. 1) "Fără să treacă nicio limită neagră, șoarecele gri din colț navighează cu măiestrie prin labirint, ocolind până găsește brânza galbenă." 2) "Modifică grila din dreapta jos pentru a respecta regula stabilită de celelalte grile. Poți umple celulele, șterge celule sau schimbi culoarea unei celule."

Iată vestea bună: raționamentul vizual se îmbunătățește în timp. Performanța la multe dintre aceste sarcini a crescut semnificativ între Veo 2 și Veo 3. Am inclus câteva exemple mai jos. Pe scurt; DR - "Dacă aștepți fizică exactă în modelele video, rămâi la coadă" 😂

224

Limită superioară

Clasament

Favorite