Chyba muszę napisać długi wyjaśniający tekst na temat Engramu DeepSeek.
Polub ten post, jeśli chcesz wyjaśnienia na temat
- jak gradienty przepływają do osadów uzyskiwanych za pomocą funkcji haszujących
- lub co łączą w jedną FP8 MMA
- lub DLACZEGO KURWA UŻYWAJĄ KONWOLUCJI W TRANSFORMERZE
Kiedy RETRO został wydany, myślałem, że retrieval to duża sprawa dla LLM-ów, aby zmniejszyć liczbę parametrów, jednocześnie zwiększając głębokość wiedzy modeli. Byłem zaskoczony, że firmy unikały tego pomysłu.
Whale wprowadza Retrieval na stół:
> Najbardziej zauważalne jest to, że podczas gdy moduł pamięci ma wspierać retrieval wiedzy (np. MMLU +3.4; CMMLU +4.0), obserwujemy jeszcze większe zyski w ogólnym rozumowaniu (np. BBH +5.0; ARC-Challenge +3.7) oraz w dziedzinach kodowania/matematyki (HumanEval +3.0; MATH +2.4). Analizy mechanistyczne ujawniają, że Engram odciąża wczesne warstwy backbone'u od statycznej rekonstrukcji, skutecznie pogłębiając sieć dla złożonego rozumowania.