المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: التعلم الذاتي الإشراف القابل للإثبات والتوسع بدون القواعد الاسترشادية
التعليقات على #PaperADay 3 أوصت بهذه الورقة كورقة JEPA الحديثة، وتبدو أفضل بكثير!
يعترفون بأن الكثير من أبحاث JEPA السابقة كانت عشوائية ومليئة بالاستدلالات، لكنهم هنا يقدمون ادعاءات نظرية قوية عن الأمثل ويقدمون براهين (لم أقرأها).
الادعاء الأول هو أن التوزيع المتساوي الخواص هو التوزيع الأمثل الفريد للتضمين لكل من الاستكشاف الخطي وغير الخطي، مما يقلل من خطر أسوأ الحالات عبر المهام اللاحقة. كنت سأؤمن بذلك فقط بعبارة "يبدو جيدا بالنسبة لي"، لكنهم يدخلون في التفاصيل والأمثلة.
الحصول فعليا على جاوسي متساوي الخواص في أبعاد عالية أسهل قولا من فعل. يقدمون التنظيم الغاوسي المتساوي المرسوم (SIGReg) كدالة خسارة جيدة السلوك لتحقيق ذلك بعد تحليل عدد من الاختبارات الإحصائية المختلفة، ويدعون أنها تتفوق على لعنة الأبعاد من خلال قابلية التوسع الخطية.
الخسارة النهائية هي مجرد عامل مزيج لموازنة فقدان توقع JEPA مقابل فقدان التماثل SIGReg. هذا هو المعامل الفائق القابل للضبط الوحيد ل LeJEPA.
رغم أن P في JEPA، إلا أنهم لا يستخدمون شبكات التنبؤ هنا، بل يقارنون مباشرة تضمين الرؤية لخسارة JEPA. يمكن أن تكون شبكات التنبؤ مفيدة لتسلسلات الفيديو، خاصة عند تكييفها بمعلومات الحركة للوكلاء / الروبوتات.
يتم تعزيز كل صورة تدريبية لإنتاج عرضين عالميين وست رؤى محلية بمقاييس مكانية مختلفة ولكن بنفس مجموعة الألوان والتحويلات الهندسية. الخسارة هي متوسط MSE بين متوسط تضمين الرؤية العالمية وكل من تضمينات الرؤية المحلية.
ليس لدي فكرة جيدة عن المقايضات في تحويلات الرؤية الخاصة بهم، والتي لا تزال تبدو في مجال الارتجال، لكنها ستحدد طبيعة ما يتم تصفيتها من التمثيل. تعلم ما لا يهم أمر حاسم، لكن تحديد "الأهمية" ضمني فقط في تحويلات النظر.
LeJEPA نفسها مستقلة عن البنية – أي شيء يهضم دفعة من العينات من مجموعة بيانات إلى متجهات يمكن استخدامه. محولات الرؤية، MLP، ConvNets، وغيرها. التعزيزات المحددة للعروض ستكون محددة لطريقة الإدخال، لكن خوارزمية LeJEPA يمكن أن تعمل على الصوت أو الصور أو الفيديو أو أشياء أخرى.
تظهر هذه الأبحاث أن خسارة LeJEPA على نموذج الأساس الكبير تدل بشكل كبير على أداء المهام في المراحل النهائية، سواء بشكل مباشر، أو مع قاعدة استدلالية لتحسين القوة التنبؤية للخسارة بشكل أبعد.
كما أظهرت أنه يمكن استخدامها للتدريب من الصفر على مجموعات بيانات صغيرة تحتوي على 1000 عينة فقط وتحقيق نتائج أفضل من استكشاف نموذج الأساس العام التقليدي.
سعدت برؤية عينات من الشيفرة في الورقة بدلا من الشيفرة الزائفة المليئة باليونانية، بالإضافة إلى مستودع على GitHub.
الملحق د يحتوي على تفاصيل مثيرة للاهتمام حول توليد تغطية جيدة للكرات الفائقة الوحدة ذات العينات ذات التباين المنخفض عن طريق تحويل تسلسلات سوبول، لكن هذا فقط لتحليلهم النظري، وأظهروا أنه من الأفضل صنع متجهات فائقة عشوائية جديدة في كل دفعة، حتى 16 متجه عشوائي يتفوق على مجموعة ثابتة من الآلاف.
بعض الأسئلة:...
الأفضل
المُتصدِّرة
التطبيقات المفضلة
