Tôi đã có quyền truy cập sớm vào PixVerse-R1, một mô hình thế giới thời gian thực. Điều này khá hứa hẹn! R1 là một mô hình hoàn toàn khác biệt: Thay vì tạo ra các đoạn video cố định, nó tạo ra các luồng hình ảnh vô hạn, liên tục phản ứng ngay lập tức với đầu vào của người dùng. (Mã mời bên dưới)
Nền tảng tạo ra video nhanh chóng rõ rệt! Bạn có thể bắt đầu với một đoạn clip và thêm các cảnh mới vào đó. Mô hình duy trì tính nhất quán khi bạn tiếp tục. Hầu hết các công cụ video đều cung cấp cho bạn một đoạn clip, và bạn bắt đầu lại từ đầu. Điều này cảm giác giống như điều khiển một cái gì đó đã đang chuyển động.
Kiến trúc của mô hình @PixVerse_ có ba phần quan trọng: 1. Một mô hình nền tảng đa phương thức bản địa kết hợp văn bản, hình ảnh, video và âm thanh thành một luồng token duy nhất. 2. Một cơ chế bộ nhớ tự hồi tiếp duy trì tính nhất quán qua các chuỗi dài vô hạn. 3. Một "Động cơ Phản hồi Ngay lập tức" cắt giảm số bước lấy mẫu từ hàng chục xuống còn 1-4. Phần cuối cùng là chìa khóa: đó là điều làm cho mô hình này hoạt động trong thời gian thực.
Việc khiến mô hình tạo ra chính xác những gì bạn đang nghĩ vẫn còn khó khăn. Cần nhiều lần thử nghiệm để hiện thực hóa một câu chuyện cụ thể. Đây là một vấn đề chung với việc tạo video. Chúng ta vẫn còn một chặng đường dài trước khi điều này có thể thay thế Hollywood.
Có một số hạn chế với việc tạo video thời gian thực: 1. Các lỗi dự đoán nhỏ tích lũy qua các chuỗi dài 2. Chi phí tính toán cao (và vẫn là một nút thắt cổ chai) Chúng ta còn sớm, nhưng quỹ đạo ở đây trông khá tốt!
Tương lai thực sự rất tươi sáng: • Một trò chơi tạo ra các môi trường khi bạn chơi. 100% ngay lập tức. • Một bộ phim mà người xem ảnh hưởng đến các kết quả của câu chuyện. • Các mô phỏng cho nghiên cứu, lập kế hoạch công nghiệp, và thậm chí là mô hình sinh thái phát triển dựa trên các quyết định. Đó là mục tiêu ở đây: Để có "các thế giới tương tác liên tục thay vì các tác phẩm truyền thông hữu hạn."
257