Uzyskałem wczesny dostęp do PixVerse-R1, modelu świata w czasie rzeczywistym. To jest dość obiecujące! R1 to zasadniczo inny paradygmat: Zamiast generować stałe klipy, tworzy nieskończone, ciągłe strumienie wizualne, które natychmiast reagują na wejście użytkownika. (Kody zaproszeń poniżej)
Platforma generuje filmy zauważalnie szybko! Możesz zacząć od klipu i dodać do niego nowe sceny. Model utrzymuje spójność, gdy kontynuujesz. Większość narzędzi wideo daje ci klip, a ty zaczynasz od nowa. To bardziej przypomina kierowanie czymś, co już jest w ruchu.
Architektura modelu @PixVerse_ składa się z trzech kluczowych elementów: 1. Rodzinny model multimodalny, który łączy tekst, obraz, wideo i dźwięk w jeden strumień tokenów. 2. Autoregresywny mechanizm pamięci, który utrzymuje spójność w nieskończono długich sekwencjach. 3. "Silnik Natychmiastowej Odpowiedzi", który redukuje liczbę kroków próbkowania z dziesiątek do 1-4. Ostatnia część jest kluczowa: to właśnie sprawia, że ten model działa w czasie rzeczywistym.
Uzyskanie od modelu dokładnie tego, co masz na myśli, wciąż jest trudne. Wymaga wielu prób, aby zrealizować konkretną historię. To jest problem z generowaniem wideo w ogóle. Wciąż jesteśmy daleko od tego, aby to zastąpiło Hollywood.
Istnieje kilka ograniczeń związanych z generowaniem wideo w czasie rzeczywistym: 1. Małe błędy predykcji kumulują się w długich sekwencjach 2. Koszty obliczeniowe są wysokie (i wciąż stanowią wąskie gardło) Jesteśmy na wczesnym etapie, ale trajektoria wygląda całkiem obiecująco!
Przyszłość jest naprawdę jasna: • Gra, która generuje środowiska w trakcie gry. 100% na bieżąco. • Film, w którym widz wpływa na wyniki narracji. • Symulacje do badań, planowania przemysłowego, a nawet modelowania ekologicznego, które ewoluują w oparciu o podejmowane decyzje. To jest cel tutaj: Mieć "trwałe, interaktywne światy zamiast skończonych artefaktów medialnych."
263