Acho que tenho que escrever uma explicação em formato longo sobre o Engram do DeepSeek. Gostem deste post se quiserem uma explicação sobre - como os gradientes fluem para as incorporações acessadas através de funções hash - ou o que eles fundem em um único FP8 MMA - ou POR QUE CARGAS É QUE ELES USAM CONVOLUÇÕES NO TRANSFORMER