DeepSeek ha recentemente pubblicato tre articoli, tutti firmati da Liang Wenfeng, e i contenuti degli articoli sono molto interessanti. In particolare, quello che parla di Engram, DeepSeek ha praticamente fornito al modello un "dizionario" per l'esame, liberando la capacità di memoria per concentrarsi su problemi difficili. Tuttavia, hanno scoperto che se il modello è tutto memoria (Engram), diventa un secchione che memorizza a menadito, incapace di pensare. Ma se è tutto ragionamento (MOE), si spreca una grande quantità di potenza di calcolo per dedurre conoscenze fisse come "Qual è la capitale della Cina". Quanta memoria bisogna portare all'esame? DeepSeek ha sviluppato un modello con il rapporto d'oro tra "memoria" e "pensiero". Il miglior rapporto trovato è: 75% per il pensiero, 25% per la memoria. Questa conclusione potrebbe non essere valida solo per i modelli, ma merita anche una profonda riflessione da parte degli esseri umani. Quando una persona ricorda tutti i dettagli, praticamente non ha spazio per pensare. Il pensiero logico e l'astrazione appropriata sono la fonte del progresso umano. Quando una persona non ha affatto conoscenze, spreca solo energia mentale per pensare alle cose più basilari, con la mente che gira a vuoto. DeepSeek ha misurato che, aggiungendo un dizionario e riducendo il pensiero, il modello ha guadagnato una profondità di pensiero equivalente a 7 strati di rete. Non ci si aspettava che la vastità della conoscenza aumentasse la profondità del pensiero in questo modo. È molto stimolante.