Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lempiartikkelini tänä vuonna: "Videomallit ovat täysin oppimattomia ja päättelijöitä"
Se havainnollistaa, että videomallit osoittavat emergenttiä visuaalista päättelyä suuressa mittakaavassa – ne pystyvät ratkaisemaan näkötehtäviä, joihin niitä ei ole koulutettu.
Tämä saattaa olla näön "GPT-hetki". Käydään läpi 👇
Aluksi – miksi uskoa, että videomallit voisivat kehittää visuaalista päättelyä?
Samanlainen asia tapahtui tekstissä. Aiemmin koulutimme tiettyjä malleja jokaiselle tehtävälle – mutta nyt LLM:illä on yleinen kieliymmärrys ja ne pystyvät hoitamaan monia tehtäviä, joihin niitä ei ole nimenomaisesti koulutettu.
On mahdollista, että videomallit voivat tehdä saman suuressa mittakaavassa.

Tässä tutkimuksessa mitattiin 18 000+ videota, jotka Veo 3 tuotti sekä laadullisissa että määrällisissä tehtävissä.
Se havaitsi, että Veo pystyy havaitsemaan, muokkaamaan ja manipuloimaan visuaalista maailmaa (alkaen kuvasta + tekstikehotteista) – mikä esitteli varhaisia päättelytaitoja, joihin sitä ei ole nimenomaisesti koulutettu.
Käymme jokaisen kategorian läpi yksi kerrallaan.

👀 Havaitseminen – kun sitä pyydetään, Veo pystyy havaitsemaan reunoja ja tunnistamaan selkeitä objekteja kohtauksessa.
Tämä tarkoittaa, että se voi toimia segmentointimallina, vaikka sitä ei olisi koulutettu kyseiseen tehtävään, mikä tuo mukanaan mielenkiintoisia jälkivaikutuksia.
1) "Lisää kirkkaan sininen piste oksan kärkeen, jolla ara istuu. Aran silmä muuttuu kirkkaan punaiseksi. Kaikki muu muuttuu täysin pimeäksi."
2) "Sininen pallo alkaa välittömästi hehkua. Staattinen kameran näkökulma."
🌐 Mallinnus – Veo voi mallintaa maailmaa (ja sitä ohjaavia periaatteita) tämän havainnon pohjalta.
Se osoittaa vahvaa fysiikan ymmärrystä – asioita kuten ilmanvastus ja noste, optisia ilmiöitä kuten taittumista ja heijastumista sekä värien sekoittumista.
1) "Käsi päästää irti esineestä"
2) "Jättimäinen peilikiillotettu metallipallo rullaa huoneen läpi"
🤏 Manipulointi – Veo voi manipuloida visuaalista maailmaa tämän havainnon ja mallinnuksen perusteella.
Tämä mahdollistaa nollakuvan muokkaustehtävät – esimerkiksi kohtausten yhdistäminen, taustan poisto, tyylin siirto tai jopa taitava käsittely.
1) "Käytä maalaisjärkeä ja anna kahden robottikäden avata purkki, kuten ihminen."
2) "Muuta tämä selfie ammattimaiseksi pääkuvaksi LinkedInille."
🤔 Visuaalinen päättely – kaikki edellä mainitut taidot johtavat päättelyyn.
Tätä mitataan antamalla mallille visioon perustuvia haasteita, jotka vaativat vaiheittaista päättelyä.
Ajattele analogioiden tekemistä, labyrinttien tai pulmien ratkaisemista, työkalujen käyttöä tai graafin läpikäymistä.
1) "Ilman mustaa rajaa harmaa hiiri kulkee taitavasti labyrintin läpi kävelemällä ympäriinsä, kunnes löytää keltaisen juuston."
2) "Muokkaa oikean alakulman ruudukkoa noudattamaan muiden ruudukkojen asettamaa sääntöä. Voit täyttää soluja, puhdistaa soluja tai muuttaa solun väriä."
Tässä on loistava uutinen: visuaalinen päättely paranee ajan myötä.
Monien näiden tehtävien suorituskyky parani merkittävästi Veo 2:n ja Veo 3:n välillä. Liitin alle muutaman esimerkin.
TL; DR - "Jos odotat tarkkaa fysiikkaa videomalleissa, pysy jonossa" 😂

239
Johtavat
Rankkaus
Suosikit
