Схоже, мені доведеться написати довге пояснення щодо Engram від DeepSeek. Поставте лайк цьому посту, якщо хочете пояснити - як градієнти потрапляють до вкладень, до яких звертаються через хеш-функції - або те, що вони об'єднують в один FP8 MMA - або ЧОМУ, ЧОРТ ЗАБИРАЙ, ВОНИ ВИКОРИСТОВУЮТЬ ЗГОРТКИ В ТРАНСФОРМАТОРІ