قمنا بتدريب بشري يدين ماهرة بقوة 22 درجة على تجميع نماذج السيارات، وتشغيل الحقن، وفرز بطاقات البوكر، وطي/لف القمصان، وكل ذلك تعلمنا بشكل أساسي من 20,000+ ساعة من الفيديو البشري الأناني دون وجود روبوت في الدائرة. البشر هم أكثر تجسيد قابل للتوسع على وجه الأرض. اكتشفنا قانون تحجيم لوغاريتمي خطي شبه مثالي (R² = 0.998) بين حجم الفيديو البشري وفقدان توقع الحركة، وهذا الخسارة يتنبأ مباشرة بمعدل نجاح الروبوتات الحقيقية. الروبوتات البشرية ستكون الهدف النهائي، لأنها تشكل الشكل العملي مع فجوة تجسيد قليلة جدا عن البشر. سميها الدرس المر لأجهزة الروبوتات: التشابه الحركي يسمح لنا ببساطة بإعادة توجيه حركة الأصابع البشرية إلى مفاصل يد الروبوتات الماهرة. لا تضمينات مكتسبة، ولا خوارزميات نقل معقدة مطلوبة. حركة المعصم النسبية + حركات الأصابع المعاد توجيهها بطول 22 درجة أصابع تعمل كمساحة عمل موحدة تنتقل من التدريب المسبق إلى تنفيذ الروبوتات. وصفتنا تسمى "إيغوسكيل": - GR00T N1.5 قبل التدريب على 20 ألف ساعة فيديو بشري، في منتصف القطار مع 4 ساعات (!) فقط من بيانات تشغيل الروبوتات بأيدي شاربا. 54٪ مكاسب مقارنة بالتدريب من الصفر عبر 5 مهام عالية المهارة. - النتيجة الأكثر إثارة للدهشة: عرض تجريبي واحد من التليوب يكفي لتعلم مهمة لم تر من قبل. وصفتنا تمكن من كفاءة بيانات فائقة. - على الرغم من أننا نتدرب مسبقا في مساحة مفصل اليد 22 درجة أصابع، إلا أن السياسة تنتقل إلى Unitree G1 مع أيدي ثلاثية الأصابع ب 7 DoF. 30٪+ مكاسب مقارنة بالتدريب بناء على بيانات G1 فقط. الطريق القابل للتوسع إلى براعة الروبوتات لم يكن أبدا المزيد من الروبوتات. دائما كنا نحن. غوص عميق في الموضوع: