المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لماذا تتعلم الشبكات العصبية على حافة الفوضى
عندما تدرب شبكة عصبية، لا يتم توزيع تحديثات المعلمات عادة. إنها ثقيلة الذيل—قفزات كبيرة نادرة تقطع العديد من التعديلات الصغيرة. يظهر هذا النمط عبر MLPs وCNNs وTransformers، وعبر MNIST وCIFAR-10، وعبر التعلم السريع المبكر والتقارب المتأخر. إنه أمر عالمي بشكل مريب.
يجادل شين-يا، تشانغ وتاو تانغ بأن هذا ليس غرابة في النزول التدريجي العشوائي أو ضوضاء الدفعات الصغيرة. إنها علامة على النقدية المنظمة ذاتيا، تنبع من مقايضة أساسية: مبدأ أقصى إنتروبيا يدفع الشبكة للاستكشاف بحرية، بينما يفرض قيد المعلومات المتبادلة التحديثات على البقاء ذات صلة بالمهام. وإذا وازنت بين هاتين القوتين، ستحصل على إحصائيات قانون القوة—نفس سلوك التوسع الذي يرى في الزلازل، والانهيارات العصبية، والأسواق المالية.
الأدلة مقنعة. يبقى أس قانون القوة مستقرا بشكل ملحوظ طوال فترة التدريب، حتى مع انخفاض الخسارة بشكل كبير. يظهر مشهد الفقدان نفسه بنية متعددة المقاييس: نعومة أسية تحت الاضطرابات الصغيرة (الأحواض المسطحة محليا)، والانتقال إلى متانة قانون القوة على مقاييس أكبر. حتى توقيت التحديثات الكبيرة يتبع إحصائيات ثقيلة—حيث تتجمع أحداث التعلم الكبيرة معا بدلا من أن تحدث عشوائيا، مع أسس بين 2.5–2.7.
ما يجعل هذا مرضيا من الناحية المفاهيمية هو الاشتقاق النظري من المبادئ الأولى. بدءا من تعظيم الإنتروبيا تحت قيد معلوماتي، وباستخدام صياغة تكاملية المسار لتبايند كينغز لول عبر فضاء المعلمات، يستعيد المؤلفون سلوك القياس الملحوظ بالضبط. لا ضبط، ولا افتراضات عشوائية.
تثير الآثار تأثيرا عميقا: تعلم الشبكات العصبية ليس مجرد تحسين—بل هو عملية فيزيائية غير متوازنة تحكمها نفس المبادئ الإحصائية التي تشكل الأنظمة المعقدة في جميع أنحاء الطبيعة. فهم هذا يمكن أن يوجه تصميم خوارزميات تعلم أكثر كفاءة ويشرح لماذا تعمم SGD بشكل أفضل من الطرق التكيفية التي تمنع التحديثات الاستكشافية الكبيرة.
الورقة:

الأفضل
المُتصدِّرة
التطبيقات المفضلة
