من السخيف أننا حللنا VideoGen بوضعه في كل شيء داخل محول. كل التحيزات الاستقرائية الجميلة للنص لا تتوافق فعليا في الفيديو: هل تقوم بعمل انتباه بين رقع البكسل عبر الزمان والمكان؟ ومع ذلك، يعمل بشكل رائع
الرد الشائع هو أن النماذج تريد فقط التعلم والمحولات هي الشيء الذي نعرف كيف نتقمنه بشكل جيد جدا. لكن هذا يثير السؤال لماذا المحولات هي الشيء الوحيد الذي نعرف كيف نحجمه؟ ليس مجرد تكلفة غارقة
‏‎29.77‏K