Ba bài báo gần đây của DeepSeek đều có chữ ký của Lương Văn Phong, nội dung của các bài báo cũng rất thú vị. Đặc biệt là bài nói về Engram, DeepSeek giống như đã mang vào phòng thi một "từ điển" cho mô hình, giải phóng dung lượng bộ nhớ để chuyên tâm giải quyết các bài toán khó. Nhưng họ phát hiện rằng, nếu mô hình chỉ toàn là ký ức (Engram), thì nó giống như một kẻ học thuộc lòng, hoàn toàn không thể suy nghĩ. Nhưng nếu chỉ toàn là suy luận (MOE), lại phải lãng phí một lượng lớn sức mạnh tính toán để suy diễn những kiến thức cố định như "Thủ đô của Trung Quốc là gì". Vậy thì cần bao nhiêu ký ức để thi cử đây? DeepSeek đã nghiên cứu ra một tỷ lệ vàng giữa "ký ức" và "suy nghĩ" cho mô hình. Cuối cùng, tỷ lệ tối ưu được đo lường là: 75% cho suy nghĩ, 25% cho ký ức. Kết luận này có thể không chỉ áp dụng cho mô hình, mà còn đáng để con người suy ngẫm. Khi một người nhớ tất cả các chi tiết, thì gần như không còn không gian để suy nghĩ. Tư duy logic, sự trừu tượng hợp lý, là nguồn gốc của sự tiến bộ của con người. Khi một người hoàn toàn không có kiến thức, chỉ lãng phí sức lực để suy nghĩ về những điều cơ bản nhất, thì trí óc chỉ quay vòng. DeepSeek đã thực nghiệm, việc thêm từ điển đã giảm bớt suy nghĩ, mô hình đã có thêm độ sâu suy nghĩ tương đương với 7 lớp mạng. Không ngờ, độ rộng của kiến thức lại tăng cường độ sâu của suy nghĩ theo cách này. Thật là một nguồn cảm hứng.