Một điều khá táo bạo mà DeepSeek làm là họ cho thấy Engram hoạt động tốt ở mức 27B, và sau đó là 40B mà hầu như không cải thiện thêm, và họ nói «eh nó chưa được huấn luyện đủ». Tôi nghĩ rằng hồ sơ năng lực của các lớp Engram so với FFNs có những tác động không tầm thường ở các quy mô khác nhau.
Nó làm tôi nhớ đến DS-MoE, nơi họ xem xét biến thể «nửa kích hoạt» như một điều gì đó rất tham vọng, đưa ý tưởng đến giới hạn. Tự nhiên, cuối cùng V2 có tỷ lệ thưa thớt chính xác như vậy, và V3 thì thưa thớt hơn.
205