Ik denk dat ik een uitgebreide uitleg moet schrijven over DeepSeek's Engram. Like deze post als je een uitleg wilt over - hoe gradients stromen naar de embeddings die toegankelijk zijn via hashfuncties - of wat ze samenvoegen tot een enkele FP8 MMA - of WAAROM DE FACK GEBRUIKEN ZE CONVOLUTIES IN DE TRANSFORMER