هذا ملخص لأوراق بحثية بعنوان <a href=" نموذج توليد وتصوير وتحرير الفيديو والصوت متعدد الوسائط</a>. إذا كنت تحب هذا النوع من التحليل، انضم إلى <a href=" أو تابعنا على <a href=" <h2>المشكلة في توليد الفيديو اليوم</h2> <p>لسنوات، كان توليد الفيديو وتوليد الصوت غريبين في مختبرات منفصلة. أصبحت نماذج الفيديو الحالية مثيرة للإعجاب حقا، قادرة على دمج مشاهد فوتوغرافية واقعية بحركة معقدة وتفاصيل غنية. ومع ذلك، فهي تعمل في فراغ، حيث تعامل الصوت كزينة اختيارية أو تتجاهله تماما.</p> <p>وهذا يخلق مشكلة ملموسة: عدم التوافق الزمني. عندما تقوم بإنتاج فيديو للمطر وهو يصطدم بسقف معدني، يتم إنشاء الصوت (إن وجد) بشكل مستقل. صوت إغلاق الباب في الفيديو لا يتزامن مع صوت إغلاق الباب في الصوت. حوار الشخصية لا يتطابق مع حركات شفاههم. النتيجة تبدو غريبة، كأنها فيلم مدبلج حيث هناك شيء دائما غير طبيعي قليلا.</p> <p>القضية الأعمق هي المعمارية. معظم النماذج متعددة الوسائط تعامل النص كالموصل الوحيد، مع كل شيء آخر يخدمه. لكن في إنتاج الأفلام الحقيقية، الفيديو والصوت يثريان بعضهما البعض باستمرار. لقطة مطر ضيقة ليست فقط عن البكسلات، بل عن الصوتيات. المشهد المزدحم في السوق يحتاج إلى صوت يخبرك بأي المحادثات مهمة. يجب أن يتعاون المصور السينمائي ومهندس الصوت بشكل متسلسل.</p> <h2>لماذا يجب أن يولد الصوت بالرؤية، لا يضاف لاحقا</h2> <p>تخيل موسيقيين اثنين في غرفة مظلمة، غير قادرين على رؤية بعضهما البعض لكنهما يستمعان بانتباه. واحد يعزف على آلات وترية، وواحد يعزف الإيقاع. يشتركان في قائد الأوركسترا (التوجيه النصي) وتسجيل مرجعي (وصف المشهد). لا يستطيعان رؤية بعضهما البعض، لكنهما يسمعان أنفسهم يعزفون الموسيقى ويبقون في الإيقاع. هذه هي الرؤية المعمارية للعبة SkyReels-V4.</p> الصوت <p>لا يتم إنتاجه بعد الفيديو هنا. بدلا من ذلك، يولد كلا الفرعين بالتوازي، مما يشكل بعضهما البعض. يتعلم فرع الفيديو أن المرجع الصوتي يحتوي على نباح كلب، لذا يصنع حركة تتناسب مع توقيت وطاقة ذلك النباح. يسمع فرع الصوت أن الفيديو يحتوي على كلب، لذا يصدر أصواتا تتوافق مع وجود ذلك الحيوان. وهذا يختلف جوهريا عن الطرق الأخرى التي تدمج الصوت على الفيديو كفكرة ثانوية.</p> <p>عندما تشترك عمليتان توليديتان في نفس الفهم للمدخلات، يمكن تنسيقهما. ليست نماذج مستقلة يتم تسليمها بالتتابع، بل هي جزآن من فكرة موحدة واحدة.</p> <h2>العمارة: تيارات مزدوجة مع عقل مشترك</h2> <p>يستخدم SkyReels-V4 <strong>محول انتشار متعدد الوسائط ثنائي التدفق (MMDiT)</strong> حيث يقوم أحد الفروع بتصنيع الفيديو والآخر بتوليد الصوت، بينما يستمد كلاهما من أساس مفاهيمي مشترك. إليك كيف تتناسب القطع معا.</p> <p>يقوم فرع الفيديو بتركيب الإطارات في فضاء كامنة مكتملة مكتملة باستخدام الانتشار، مع قبول التكييف البصري الغني: أوصاف نصية، صور مرجعية، أقنعة للرسم داخل الصور، وحتى مقاطع فيديو كاملة. يقوم فرع الصوت بتوليد مخططيات الطيفية للصوت عبر نفس عملية الانتشار، مشروطة بالنص والمراجع الصوتية. كلا الفرعين متكونان على نظام ترميز نصوص يعتمد <strong>على نموذج اللغة الكبيرة متعدد الوسائط (MMLM)</strong> يفهم المفاهيم البصرية بالإضافة إلى اللغة. عندما تصف "عاصفة رعدية فوق حقل قمح"، يلتقط هذا المشفر الغنى البصري والتوقعات الصوتية المدمجة في هذا الوصف.
نظرة عامة على بنية SkyReels-V4 تظهر فروع توليد الفيديو والصوت ذات التدفق المزدوج تشترك في مشفر متعدد الوسائط.
بنية التدفق المزدوج مع مشفر متعدد الوسائط مشترك، حيث تتولد فروع الفيديو والصوت في نفس الوقت مع الاعتماد على نفس فهم النص.
تتدفق المعلومات من الرسالة النصية إلى المشفر المشترك، ثم تتحلل إلى فهم، وهذا الفهم يتدفق إلى كلا الفرعين. لا ينتظرون بعضهم البعض، لكنهم منسقون بنفس المدخلات المفاهيمية.
نماذج الانتشار مثالية لهذا الجيل المشترك لأن الفيديو والصوت يستفيدان من التحسين خطوة بخطوة. في كل خطوة انتشار، يمكن دفع فرع الفيديو بلطف بواسطة تقدير فرع الصوت الحالي، والعكس صحيح. إنه مثل موسيقيين يصقلان أداءهما في الوقت الحقيقي، كل منهما يستمع ويتأقلم مع الآخر.
واجهة واحدة للتوليد والتحرير والرسم
هنا تصبح الأناقة المعمارية قوة عملية. معظم نماذج الفيديو تتطلب مسارات كود منفصلة ل "توليد من الصفر"، "تحرير هذا الفيديو"، و"تمديد هذا المقطع". يوحد SkyReels-V4 كل هذه تحت آلية واحدة باستخدام تسلسل القنوات.
الحيلة بسيطة بشكل خادع. يمكن ملء قنوات الإدخال المختلفة بمحتوى مختلف، أو تركها مخفية:
- توليد النص إلى الفيديو: جميع قنوات الإدخال فارغة (مخفية)، لذا يقوم النموذج بتوليد كل شيء من الصفر.
- تحويل الصورة إلى الفيديو: يتم تضمين صورة بداية في قنوات معينة، وتبقى أخرى فارغة، ويقوم النموذج بتوليد الفيديو التالي.
- امتداد الفيديو: إطارات الفيديو الحالية تملأ بعض القنوات، وأخرى مخفية، والنموذج يولد ما يأتي بعد ذلك.
- Inpainting: يتم توفير فيديو يحتوي على مناطق مقنعة، وقنوات تلك المناطق فارغة، ويملأ النموذج الفجوات بشكل متماسك.
- التحرير المرجعي بالرؤية: يتم تضمين كل من فيديو للتحرير وصورة مرجعية تظهر النمط المطلوب كشرط، ويقوم النموذج بالتعديل وفقا لذلك.
تتطلب الأساليب التقليدية نماذج أو إجراءات تدريب مختلفة لكل مهمة. يتعلم SkyReels-V4 عملية انتشار موحدة واحدة. خلال التدريب، يرى تركيبات عشوائية من القنوات المملوءة والفارغة ويتعلم كيف يرسم بذكاء. يمتد هذا المعالجة الموحدة بشكل طبيعي إلى سيناريوهات معقدة حيث توجه الإشارات المتعددة الجيل، وهو أمر حاسم للإنتاج على مستوى السينما.
جعل دقة السينما قابلة للتطبيق حسابيا
توليد فيديو بدقة 1080p بسرعة 32 إطارا في الثانية لمدة 15 ثانية مكلف حسابيا. لا يمكنك ببساطة توسيع عملية الانتشار والأمل في أوقات استنتاج ممكنة. بدلا من ذلك، يستخدم SkyReels-V4 استراتيجية من ثلاث مراحل تحافظ على الجودة حيث تهم أكثر مع تقليل التكاليف الحاسوبية في أماكن أخرى.
...