Die drei kürzlich veröffentlichten Arbeiten von DeepSeek sind alle von Liang Wenfeng unterzeichnet und die Inhalte der Arbeiten sind ebenfalls sehr interessant. Insbesondere die Arbeit über Engram ist bemerkenswert, da DeepSeek dem Modell eine Art "Wörterbuch" für die Prüfung zur Verfügung stellt, wodurch der Platz für das Auswendiglernen freigemacht wird, um sich auf schwierige Aufgaben zu konzentrieren. Sie haben jedoch festgestellt, dass, wenn das Modell nur aus Erinnerungen (Engram) besteht, es wie ein auswendig lernender Bücherwurm ist, der überhaupt nicht denken kann. Wenn es jedoch nur aus Schlussfolgerungen (MOE) besteht, wird eine enorme Rechenleistung benötigt, um feststehendes Wissen wie "Was ist die Hauptstadt von China?" abzuleiten. Wie viel Gedächtnis sollte man also für die Prüfung mitbringen? DeepSeek hat ein Modell mit dem goldenen Verhältnis von "Erinnerung" und "Denken" entwickelt. Das letztendlich ermittelte optimale Verhältnis ist: 75 % für das Denken, 25 % für das Gedächtnis. Diese Schlussfolgerung könnte nicht nur für Modelle gelten, sondern auch für den Menschen zum Nachdenken anregen. Wenn eine Person sich an alle Details erinnert, hat sie praktisch keinen Raum zum Denken. Logisches Denken und angemessene Abstraktion sind die Quellen des menschlichen Fortschritts. Wenn eine Person überhaupt kein Wissen hat, verschwendet sie nur geistige Energie, um über die grundlegendsten Dinge nachzudenken, und der Geist dreht sich im Kreis. DeepSeek hat empirisch festgestellt, dass das Hinzufügen eines Wörterbuchs die Denkleistung des Modells um das Äquivalent von 7 Netzwerkschichten erhöht hat. Es ist überraschend, dass die Breite des Wissens auf diese Weise die Tiefe des Denkens erhöht hat. Sehr inspirierend.