Ostatnie trzy prace opublikowane przez DeepSeek są wszystkie podpisane przez Liang Wenfenga, a ich treść jest bardzo interesująca. Szczególnie ta dotycząca Engramu, DeepSeek wprowadza do modelu coś w rodzaju "słownika" na egzamin, zwalniając pamięć z niepotrzebnych informacji, aby skupić się na trudnych zadaniach. Jednak odkryli, że jeśli model opiera się wyłącznie na pamięci (Engram), to staje się jedynie książkowym molem, który nie potrafi myśleć. Ale jeśli opiera się tylko na rozumowaniu (MOE), to marnuje ogromne zasoby obliczeniowe na wyprowadzanie takich stałych informacji jak "Jakie jest stolicą Chin?". Ile pamięci powinno się zabrać na egzamin? DeepSeek opracował model złotego proporcjonalnego podziału między "pamięcią" a "myśleniem". Ostatecznie najlepszy wynik to: 75% na myślenie, 25% na pamięć. To stwierdzenie może być nie tylko odpowiednie dla modeli, ale również skłania do refleksji w przypadku ludzi. Kiedy człowiek zapamiętuje wszystkie szczegóły, to w zasadzie nie ma miejsca na myślenie. Logiczne myślenie i odpowiednia abstrakcja są źródłem postępu ludzkości. Kiedy człowiek nie ma żadnej wiedzy, marnuje energię umysłową na myślenie o najprostszych rzeczach, co prowadzi do bezsensownego krążenia myśli. DeepSeek przeprowadził testy, które wykazały, że dodanie słownika zmniejsza potrzebę myślenia, a model zyskał głębokość myślenia równą 7 warstwom sieci. Nie spodziewano się, że szerokość wiedzy w ten sposób zwiększa głębokość myślenia. Bardzo inspirujące.