Me encanta el diseño de enrutamiento consciente del contexto de Engram. Su simetría es hermosa. Es una mezcla de embeddings donde los enrutadores también son embeddings. El MoE regular es "mezcla de FFNs donde los enrutadores también son FFNs", pero los KeyFFNs son solo sesgos. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i