Ich schätze, ich muss einen ausführlichen Erklärungsartikel zu DeepSeek's Engram schreiben.
Gefällt dir dieser Beitrag, wenn du eine Erklärung möchtest über
- wie Gradienten zu den durch Hash-Funktionen zugänglichen Embeddings fließen
- oder was sie zu einem einzigen FP8 MMA fusionieren
- oder WARUM VERDAMMT NOCHMAL SIE KONVOLUTIONEN IM TRANSFORMER VERWENDEN.
Als RETRO veröffentlicht wurde, dachte ich, dass Retrieval ein großes Thema für LLMs ist, um die Anzahl der Parameter zu reduzieren und gleichzeitig die Wissensvertiefung für Modelle zu erhöhen. Es war eine Überraschung für mich, dass Unternehmen diese Idee vermieden haben.
Whale bringt Retrieval auf den Tisch:
> Besonders bemerkenswert ist, dass das Gedächtnismodul voraussichtlich bei der Wissensretrieval helfen wird (z. B. MMLU +3,4; CMMLU +4,0), aber wir beobachten sogar größere Gewinne im allgemeinen Denken (z. B. BBH +5,0; ARC-Challenge +3,7) und in den Bereichen Code/Mathematik (HumanEval +3,0; MATH +2,4). Mechanistische Analysen zeigen, dass Engram die frühen Schichten des Rückgrats von statischer Rekonstruktion entlastet, was das Netzwerk effektiv für komplexes Denken vertieft.