حصلت على وصول مبكر إلى PixVerse-R1، وهو نموذج عالمي في الوقت الحقيقي. هذا واعد جدا! R1 هو نموذج مختلف جوهريا: بدلا من توليد مقاطع ثابتة، فإنه ينشئ تدفقات بصرية لا نهائية ومستمرة تستجيب فورا لمدخلات المستخدم. (رموز الدعوات أدناه)
المنصة تولد الفيديوهات بسرعة ملحوظة! يمكنك البدء بمقطع وإضافة مشاهد جديدة إليه. النموذج يحافظ على الاتساق كلما استمرت. معظم أدوات الفيديو تعطيك مقطعا، وتبدأ من جديد. هذا يشبه توجيه شيء بالفعل في حركة.
هيكل نموذج @PixVerse_ يتكون من ثلاثة أجزاء أساسية: 1. نموذج أساسي متعدد الوسائط أصلي يوحد النص والصورة والفيديو والصوت في تدفق رموز واحد. 2. آلية ذاكرة ذاتية الانحدار تحافظ على الاتساق عبر تسلسلات طويلة لا نهاية. 3. محرك استجابة فورية يخفض خطوات العينات من العشرات إلى 1-4. الجزء الأخير هو المفتاح: هو ما يجعل هذا النموذج يعمل في الوقت الحقيقي.
جعل النموذج يحقق بالضبط ما تفكر فيه لا يزال صعبا. يتطلب الأمر عدة محاولات لتحقيق قصة محددة. هذه مشكلة في توليد الفيديو بشكل عام. ما زلنا بعيدين عن استبدال هوليوود.
هناك عدة قيود في توليد الفيديو في الوقت الحقيقي: 1. تتراكم أخطاء التنبؤ الصغيرة على التسلسلات الممتدة 2. التكاليف الحسابية مرتفعة (ولا تزال عنق زجاجة) نحن في وقت مبكر، لكن المسار هنا يبدو جيدا جدا!
المستقبل مشرق حقا: • لعبة تولد البيئات أثناء اللعب. 100٪ على الفور. • فيلم يؤثر فيه المشاهد على نتائج السرد. • محاكاة للبحث، والتخطيط الصناعي، وحتى النمذجة البيئية التي تتطور بناء على القرارات. هذا هو الهدف هنا: أن يكون هناك "عوالم تفاعلية مستمرة بدلا من قطع أثرية إعلامية محدودة."
‏‎264‏