أثبتت آبل للتو أنه لا حاجة لمسح المعلمات الفائقة للنماذج الكبيرة، حيث أن البحث لمرة واحدة في النماذج الصغيرة يكفي! تقدم هذه الورقة Complete(d)P، وهي معلمة تدريب "صحيحة بالمقياس" تتيح لك ضبط المعلمات الفائقة (LR، AdamW، فقدان الوزن، init، المضاعفات المتبقية) على نموذج صغير وإعادة استخدامها دون تغيير عند قياس العرض والعمق وحجم الدفعة وأفق التدريب، حتى لكل وحدة. في التجارب، تم العثور على إعدادات عند 50 متر تنتقل إلى ~600 ضعف الجري الأكبر، مما يقلل التدريب إلى نفس الخسارة ~2.3 مرة على نطاق صغير ويمنح سرعة ~1.32x عند 7.2 مليار