الجميع يشعر بالذعر بشأن برمجة الأزاب. بروح العيد، اسمحوا لي أن أشارككم قلقي من الغرب المتوحش للروبوتات. 3 دروس تعلمتها في عام 2025. 1. العتاد متقدم على البرمجيات، لكن موثوقية الأجهزة تحد بشدة من سرعة تكرار البرمجيات. لقد رأينا فنون هندسية رائعة مثل أوبتيموس، إي-أطلس، فيجر، نيو، G1، وغيرها. أفضل الذكاء الاصطناعي لدينا لم يستخرج كل الطاقة من هذه الأجهزة الفريدة. الجسم أكثر قدرة مما يمكن للدماغ أن يأمر به. ومع ذلك، فإن رعاية هذه الروبوتات تتطلب فريق عمليات كامل. على عكس البشر، الروبوتات لا تشفى من الكدمات. ارتفاع درجة الحرارة، المحركات المعطلة، مشاكل البرمجيات الثابتة الغريبة تطاردنا يوميا. الأخطاء لا يمكن إصلاحها ولا تغفر. صبري كان الشيء الوحيد الذي تغير. 2. المقارنة المرجعية لا تزال كارثة ملحمية في مجال الروبوتات. كان أصحاب المنهج المعتاد في القانون يعتقد أن MMLU وSWE-Bench أمر منطقي. انتظر 🍺 من أجل الروبوتات. لا أحد يتفق على أي شيء: منصة العتاد، تعريف المهام، معايير التقييم، المحاكي، أو إعدادات العالم الحقيقي. الجميع يعرفون SOTA على المعيار الذي يحددونه في اللحظة لكل إعلان إخباري. الجميع يختار أجمل نسخة تجريبية من بين 100 محاولة. علينا أن نكون أفضل كمجال في 2026 ونتوقف عن اعتبار قابلية التكرار والانضباط العلمي مواطنين من الدرجة الثانية. 3. VLA القائم على VLM يبدو غير صحيح. VLA تعني نموذج "الرؤية-اللغة-الفعل" وكان النهج السائد في أدمغة الروبوتات. الوصفة بسيطة: خذ نقطة تفتيش VLM مدربة مسبقا وادمج وحدة إجراء فوقها. لكن إذا فكرت في الأمر، فإن نماذج VLM محسنة بشكل مفرط لمقارنة التسلق مثل الإجابة البصرية على الأسئلة. وهذا ينطوي على مشكلتين: (1) معظم المعلمات في VLMs مخصصة للغة والمعرفة، وليست للفيزياء؛ (2) يتم ضبط المشفرات البصرية بنشاط على *إلغاء* التفاصيل منخفضة المستوى، لأن أسئلة وأجوبة تتطلب فقط فهما عالي المستوى. لكن التفاصيل الدقيقة مهمة جدا للمهارة. لا يوجد سبب لتوسيع أداء VLA مع تطور معلمات VLM. التدريب المسبق غير متناسق. يبدو أن نموذج عالم الفيديو هو هدف أفضل بكثير من التدريب المسبق لسياسة الروبوتات. أنا أراهن عليه كثيرا.