المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أثبتت آبل للتو أنه لا حاجة لمسح المعلمات الفائقة للنماذج الكبيرة، حيث أن البحث لمرة واحدة في النماذج الصغيرة يكفي!
تقدم هذه الورقة Complete(d)P، وهي معلمة تدريب "صحيحة بالمقياس" تتيح لك ضبط المعلمات الفائقة (LR، AdamW، فقدان الوزن، init، المضاعفات المتبقية) على نموذج صغير وإعادة استخدامها دون تغيير عند قياس العرض والعمق وحجم الدفعة وأفق التدريب، حتى لكل وحدة.
في التجارب، تم العثور على إعدادات عند 50 متر تنتقل إلى ~600 ضعف الجري الأكبر، مما يقلل التدريب إلى نفس الخسارة ~2.3 مرة على نطاق صغير ويمنح سرعة ~1.32x عند 7.2 مليار

الأفضل
المُتصدِّرة
التطبيقات المفضلة
