Я отримав ранній доступ до PixVerse-R1, моделі реального часу. Це досить обнадійливо! R1 — це принципово інша парадигма: Замість генерації фіксованих кліпів вона створює нескінченні, безперервні візуальні потоки, які миттєво реагують на введення користувача. (Коди запрошень нижче)
Платформа помітно швидко генерує відео! Можна почати з кліпу і додати до нього нові сцени. Модель зберігає послідовність у процесі, коли ви продовжуєте працювати. Більшість відеоінструментів дають вам кліп, і ви починаєте все спочатку. Це більше схоже на керування чимось, що вже в русі.
Архітектура моделі @PixVerse_ складається з трьох ключових частин: 1. Нативна мультимодальна базова модель, яка об'єднує текст, зображення, відео та аудіо в один потік токенів. 2. Авторегресивний механізм пам'яті, який підтримує узгодженість у нескінченно довгих послідовностях. 3. «Двигун миттєвої реакції», який скорочує кроки вибірки з десятків до 1-4. Остання частина — ключова: саме це робить цю модель ефективною в реальному часі.
Змусити модель генерувати саме те, що ви задумали, все одно складно. Потрібно кілька спроб, щоб розкрити конкретну історію. Це проблема з генерацією відео загалом. Ми ще далеко від того, щоб замінити Голлівуд.
Існує кілька обмежень у генерації відео в реальному часі: 1. Невеликі помилки прогнозування накопичуються протягом розширених послідовностей 2. Обчислювальні витрати високі (і досі є вузьким місцем) Ми ще рано, але траєкторія тут виглядає досить добре!
Майбутнє справді світле: • Гра, яка генерує оточення під час гри. 100% на ходу. • Фільм, у якому глядач впливає на наративні результати. • Симуляції для досліджень, промислового планування та навіть екологічного моделювання, які розвиваються на основі прийнятих рішень. Ось у чому мета: Мати «стійкі, інтерактивні світи замість обмежених медіа-артефактів».
254