Похоже, мне нужно написать длинное объяснение о Engram от DeepSeek. Поставьте лайк этому посту, если хотите объяснение о - том, как градиенты передаются к встраиваниям, доступным через хеш-функции - или о том, во что они сливаются в одно FP8 MMA - или ПОЧЕМУ ЧЕРТ ПОЧЕМУ ОНИ ИСПОЛЬЗУЮТ СВЕРТКИ В ТРАНСФОРМЕРЕ