DeepSeek heeft recent drie papers gepubliceerd, allemaal onder de naam van Liang Wenfeng, en de inhoud van de papers is ook erg interessant. Vooral die over Engram, waar DeepSeek als het ware een "woordenboek" meeneemt naar het examen, waardoor de hersencapaciteit die normaal gesproken voor het uit het hoofd leren wordt gebruikt, vrijkomt om zich te concentreren op moeilijke vragen. Maar ze ontdekten dat als het model alleen maar geheugen (Engram) heeft, het een soort boekworm is die alleen maar uit het hoofd leert en helemaal niet kan nadenken. Maar als het alleen maar redenering (MOE) is, dan verspilt het een enorme hoeveelheid rekenkracht om vaste kennis zoals "Wat is de hoofdstad van China" af te leiden. Hoeveel geheugen moet je dan meenemen naar het examen? DeepSeek heeft een gouden verhouding tussen "geheugen" en "denken" ontwikkeld. De uiteindelijke beste verhouding die ze hebben gemeten is: 75% voor denken, 25% voor geheugen. Deze conclusie is misschien niet alleen van toepassing op modellen, maar ook de moeite waard voor mensen om over na te denken. Wanneer iemand alle details onthoudt, is er bijna geen ruimte om na te denken. Logisch denken en gepaste abstractie zijn de bronnen van menselijke vooruitgang. Wanneer iemand helemaal geen kennis heeft, verspilt hij alleen maar mentale energie aan het nadenken over de meest basale dingen, wat leidt tot mentale stilstand. DeepSeek heeft gemeten dat door het toevoegen van een woordenboek en het verminderen van het denken, het model een denkdiepte heeft gekregen die gelijkstaat aan 7 lagen netwerken. Het is verrassend dat de breedte van kennis op deze manier de diepte van het denken heeft vergroot. Zeer inspirerend.