المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
التعلم بالميزات الهادئة في ترانسفورمرز
هذه واحدة من أكثر الأوراق إثارة للاهتمام التي قرأتها هذا الأسبوع.
دعوني أوضح:
يجادل بأن منحنيات الخسارة يمكن أن تضلل حول ما يتعلمه النموذج.
يعتمد النهج الافتراضي لمراقبة تدريب الشبكات العصبية على فقدان التقنية كمقياس رئيسي للتقدم. إذا كانت الخسارة ثابتة، فلا يحدث شيء. إذا انخفض الفقدان، فإن التعلم يحدث.
لكن هذا الافتراض ينهار على المهام الخوارزمية.
درب هذا البحث الجديد ترانسفورمرز على عشر مهام خوارزمية أساسية واكتشف "ميزات هادئة": تمثيلات داخلية تتطور بينما يبدو الفقدان راكدا.
وجدوا أن النماذج تتعلم خطوات حسابية وسيطة قبل أن تحسن أداء المخرجات. حمل البتات بالإضافة إلى ذلك، عضوية الطابور في BFS، والضرب الجزئي في الضرب. تظهر هذه الميزات خلال فترات الهضاب الممتدة، ثم تتحد فجأة لحل المهمة.
استكشف الباحثون التمثيلات الداخلية عبر الحساب الثنائي (الجمع، الضرب)، خوارزميات الرسوم البيانية (BFS، أقصر مسار، الترتيب الطوبولوجي، MST)، وتحسين التسلسل (الحد الأقصى تحت المصفوفة الفرعية، اختيار النشاط).
أظهرت ست مهام انتقالات واضحة من مرحلتين: ركود طويل يتبعه مكاسب أداء مفاجئة.
أكدت تجارب الاستئصال السببية. إزالة ميزات الحمل من نموذج الإضافة 64-بت تسبب في انخفاض الدقة بنسبة 75.1٪. إلغاء العضوية في الطابور في BFS انخفض الدقة بنسبة 43.6٪.
تتطلب المهام الخوارزمية عدة روتينات فرعية تعمل معا. المكونات الصحيحة الفردية لا تقلل الخسارة حتى تتطابق جميع القطع. تتراكم النماذج قدرات كامنة تحت منحنيات فقدان مستوية.
يبدو أن فقدان الإنتروبيا المتقاطع هو تشخيص غير كامل. يمكن أن يحدث تعلم داخلي كبير بينما تبدو المقاييس راكدة. هذا يحفز أدوات مراقبة أكثر ثراء تتجاوز منحنيات الخسارة.
🔖 (ضع علامة مرجعية)
ورق:

الأفضل
المُتصدِّرة
التطبيقات المفضلة

