DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Il mio articolo preferito di quest'anno: "I modelli video sono apprendisti e ragionatori zero-shot" Illustra che i modelli video mostrano un ragionamento visivo emergente su larga scala - possono risolvere compiti visivi per cui non sono stati addestrati. Questo potrebbe essere il "momento GPT" per la visione. Analizziamolo 👇

Per iniziare - perché credere che i modelli video possano sviluppare ragionamento visivo? Una cosa simile è accaduta con il testo. In passato, addestravamo modelli specifici per ogni compito - ma ora, i LLM hanno una comprensione generale del linguaggio e possono affrontare molti compiti per cui non sono stati addestrati esplicitamente. È fattibile che i modelli video possano fare lo stesso su larga scala.

Questo documento ha misurato oltre 18.000 video generati da Veo 3 in compiti sia qualitativi che quantitativi. Ha scoperto che Veo può percepire, modificare e manipolare il mondo visivo (partendo da immagini + suggerimenti testuali) - mostrando abilità di ragionamento precoci per cui non era stato esplicitamente addestrato. Affronteremo ogni categoria una alla volta.

👀 Percezione - quando richiesto, Veo può rilevare i contorni e identificare oggetti distinti in una scena. Questo significa che può funzionare come un modello di segmentazione nonostante non sia stato addestrato per quel compito, il che ha alcune interessanti implicazioni a valle. 1) "Aggiungi un punto blu brillante sulla punta del ramo su cui si trova il macaw. L'occhio del macaw diventa rosso brillante. Tutto il resto diventa nero pece." 2) "La palla blu inizia a brillare istantaneamente. Prospettiva della telecamera statica."

🌐 Modellazione - Veo può modellare il mondo (e i principi che lo governano) basandosi su questa percezione. Dimostra una forte comprensione della fisica - cose come la resistenza dell'aria e la galleggiabilità, fenomeni ottici come la rifrazione e la riflessione, e la mescolanza dei colori. 1) "La mano lascia andare l'oggetto" 2) "Una gigantesca sfera di metallo lucido rotola attraverso la stanza"

🤏 Manipolazione - Veo può manipolare il mondo visivo in base a questa percezione e modellazione. Questo consente compiti di editing delle immagini zero-shot - pensa a cose come il compositing di scene, la rimozione dello sfondo, il trasferimento di stile o persino la manipolazione abile. 1) "Usa il buon senso e fai aprire il barattolo alle due mani robotiche attaccate a braccia, come farebbe un umano." 2) "Trasforma questo selfie in un ritratto professionale per LinkedIn."

🤔 Ragionamento visivo - tutte le abilità sopra menzionate si traducono in ragionamento. Questo viene misurato dando al modello sfide basate sulla visione che richiedono un ragionamento passo dopo passo. Pensa a fare analogie, risolvere labirinti o puzzle, usare strumenti o attraversare un grafo. 1) "Senza attraversare alcun confine nero, il topo grigio nell'angolo naviga abilmente il labirinto camminando intorno fino a trovare il formaggio giallo." 2) "Modifica la griglia in basso a destra per aderire alla regola stabilita dalle altre griglie. Puoi riempire celle, svuotare celle o cambiare il colore di una cella."

Ecco la grande notizia: il ragionamento visivo sta migliorando nel tempo. Le prestazioni in molti di questi compiti sono aumentate in modo significativo tra Veo 2 e Veo 3. Ho incluso alcuni esempi qui sotto. TL;DR - "Se stai aspettando fisica accurata nei modelli video, resta in fila" 😂

233

Principali

Ranking

Preferiti