شيء جريء جدا يقوم به DeepSeek هو أنهم يظهرون إنغرام يؤدي أداء رائعا حتى 27B، ثم 40B الذي لا يتحسن أكثر، ويقولون «آه، إنه غير مدرب». أعتقد أن ملف السعة بين طبقات إنغرام وFFN له تأثيرات غير بسيطة على مقاييس مختلفة.
يذكرني ذلك ب DS-MoE، حيث نظروا إلى النسخة «نصف المنشطة» كشيء طموح جدا، وأخذوا الفكرة إلى أقصى حد. بطبيعة الحال، في النهاية كان لدى V2 هذه النسبة الدقيقة، وV3 كان أقل.
‏‎119‏