Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Mój ulubiony artykuł w tym roku: "Modele wideo są uczniami i rozumującymi bez wcześniejszego szkolenia" Ilustruje to, że modele wideo wykazują emergentne rozumowanie wizualne na dużą skalę - potrafią rozwiązywać zadania wizji, do których nie były szkolone. To może być "moment GPT" dla wizji. Rozłóżmy to na czynniki 👇

Aby zacząć - dlaczego wierzyć, że modele wideo mogą rozwijać rozumowanie wizualne? Podobna sytuacja miała miejsce w przypadku tekstu. Kiedyś trenowaliśmy konkretne modele do każdego zadania - ale teraz, LLM-y mają ogólne zrozumienie języka i mogą podejmować się wielu zadań, do których nie były explicite trenowane. Jest prawdopodobne, że modele wideo mogą zrobić to samo na dużą skalę.

Niniejszy dokument zmierzył ponad 18 tys. filmów wygenerowanych przez Veo 3 w ramach zadań jakościowych i ilościowych. Stwierdzono, że Veo potrafi postrzegać, modyfikować i manipulować światem wizualnym (zaczynając od obrazów + tekstowych wskazówek) - demonstrując wczesne umiejętności rozumowania, do których nie był explicite szkolony. Zajmiemy się każdą kategorią po kolei.

👀 Percepcja - gdy zostanie poproszony, Veo potrafi wykrywać krawędzie i identyfikować wyraźne obiekty w scenie. Oznacza to, że może działać jako model segmentacji, mimo że nie był szkolony do tego zadania, co ma interesujące konsekwencje w dalszym etapie. 1) "Dodaj jasnoniebieską kropkę na końcu gałęzi, na której siedzi ara. Oko ary staje się jaskrawoczerwone. Wszystko inne staje się głęboko czarne." 2) "Niebieska piłka natychmiast zaczyna świecić. Statyczna perspektywa kamery."

🌐 Modelowanie - Veo może modelować świat (i zasady, które nim rządzą) na podstawie tej percepcji. Demonstruje silne zrozumienie fizyki - rzeczy takie jak opór powietrza i wyporność, zjawiska optyczne takie jak załamanie i odbicie, oraz mieszanie kolorów. 1) "Ręka puszcza obiekt" 2) "Gigantyczna, wypolerowana metalowa kula toczy się po pokoju"

🤏 Manipulacja - Veo może manipulować wizualnym światem na podstawie tej percepcji i modelowania. To umożliwia zadania edycji obrazów w trybie zero-shot - pomyśl o takich rzeczach jak kompozycja scen, usuwanie tła, transfer stylu, a nawet zręczna manipulacja. 1) "Użyj zdrowego rozsądku i niech dwie robotyczne ręce przymocowane do ramion otworzą słoik, tak jak zrobiłby to człowiek." 2) "Przekształć to selfie w profesjonalne zdjęcie do LinkedIn."

🤔 Rozumowanie wizualne - wszystkie powyższe umiejętności prowadzą do rozumowania. Mierzy się to, dając modelowi wyzwania oparte na wizji, które wymagają rozumowania krok po kroku. Myśl o robieniu analogii, rozwiązywaniu labiryntów lub zagadek, używaniu narzędzi lub poruszaniu się po grafie. 1) "Bez przekraczania czarnej granicy, szary myszek z rogu zręcznie porusza się po labiryncie, chodząc wokół, aż znajdzie żółty ser." 2) "Zmień dolno-prawy kwadrat, aby dostosować się do zasady ustalonej przez inne kwadraty. Możesz wypełniać komórki, czyścić komórki lub zmieniać kolor komórki."

Oto świetna wiadomość: rozumowanie wizualne poprawia się z czasem. Wydajność w wielu z tych zadań znacząco wzrosła między Veo 2 a Veo 3. Poniżej zamieściłem kilka przykładów. TL;DR - "Jeśli czekasz na dokładną fizykę w modelach wideo, stań w kolejce" 😂

247

Najlepsze

Ranking

Ulubione