Satu hal yang cukup bagus yang dilakukan DeepSeek adalah mereka menunjukkan Engram melakukannya dengan baik hingga 27B, dan kemudian 40B yang tidak meningkat lebih jauh, dan mereka mengatakan «eh itu kurang terlatih». Saya pikir profil kapasitas lapisan Engram vs FFN memiliki efek yang tidak sepele pada skala yang berbeda.
Ini mengingatkan saya pada DS-MoE, di mana mereka melihat varian «setengah aktif» sebagai sesuatu yang sangat ambisius, membawa ide hingga batasnya. Secara alami, akhirnya V2 memiliki rasio jarang ini, dan V3 lebih jarang.
207