جمعت مختبرات AMI للتو 1.03 مليار دولار. جمعت مختبرات العالم مليار دولار قبل بضعة أسابيع. كلاهما يراهن على نماذج عالمية. لكن تقريبا لا أحد يقصد نفس الشيء بهذا المصطلح. هنا، في رأيي، خمس فئات من نماذج العالم. --- 1. بنية التنبؤ بالتضمين المشترك (JEPA) الممثلون: مختبرات AMI (@ylecun)، V-JEPA 2 الرهان المركزي هنا هو أن إعادة بناء البكسلات وحدها هدف غير فعال لتعلم التجريدات اللازمة للفهم الفيزيائي. لقد قال لي كون هذا منذ سنوات — التنبؤ بكل بكسل في المستقبل صعب الفهم في أي بيئة عشوائية. يتجنب JEPA هذا من خلال التنبؤ في فضاء كامنة مكتسب بدلا من ذلك. بشكل ملموس، يدرب JEPA مشفرا يربط رقع الفيديو بالتمثيلات، ثم متنبئا يتنبأ بالمناطق المقنعة في فضاء التمثيل — وليس في فضاء البكسل. هذا خيار تصميم حاسم. النموذج التوليدي الذي يعيد بناء البكسلات يجبر على الالتزام بتفاصيل منخفضة المستوى (النسيج الدقيق، الإضاءة، موقع الورقة) التي تكون بطبيعتها غير متوقعة. من خلال العمل على التضمينات المجردة، يمكن ل JEPA التقاط "الكرة ستسقط من الطاولة" دون الحاجة إلى هلوسة كل إطار لسقوطها. V-JEPA 2 هو أوضح نقطة إثبات واسعة النطاق حتى الآن. إنه نموذج بقيمة 1.2 مليار معامل تم تدريبه مسبقا على 1 مليون + ساعة من الفيديو عبر توقع مخفي ذاتي الإشراف — بدون تسميات، بدون نص. المرحلة الثانية من التدريب هي حيث يصبح الأمر مثيرا للاهتمام: فقط 62 ساعة من بيانات الروبوت من مجموعة بيانات DROID تكفي لإنتاج نموذج عالم مهيأ بالحركة يدعم التخطيط بدون طلقة. يقوم الروبوت بتوليد تسلسلات حركة مرشحة، ويدفعها للأمام عبر نموذج العالم، ويختار النموذج الذي تتطابق نتيجته المتوقعة مع صورة الهدف بشكل أفضل. يعمل هذا على الأشياء والبيئات التي لم تر من قبل أثناء التدريب. كفاءة البيانات هي العنوان التقني الحقيقي. 62 ساعة تكاد تكون معدومة. تشير إلى أن التدريب المسبق الذاتي الإشراف على الفيديو المتنوع يمكن أن يحقق معرفة مادية سابقة كافية بحيث لا تحتاج إلى بيانات خاصة بالمجال إلا قليلا جدا في المستقبل. هذه حجة قوية لتصميم JEPA — إذا كانت تمثيلاتك جيدة بما فيه الكفاية، فلست بحاجة إلى تنفيذ كل مهمة بالقوة من الصفر. مختبرات AMI هي جهد لي كون لدفع هذا الأمر إلى ما هو أبعد من البحث. هم يستهدفون الرعاية الصحية والروبوتات أولا، وهذا منطقي بالنظر إلى قوة JEPA في التفكير الجسدي مع البيانات المحدودة. لكن هذا رهان بعيد المدى — فقد قال الرئيس التنفيذي صراحة إن المنتجات التجارية قد تكون بعيدة عن سنوات. --- 2. الذكاء المكاني (نماذج العالم ثلاثية الأبعاد) الممثل: مختبرات العالم (@drfeifei) ...