Me encanta el diseño de portillas contextual de Engram. Su simetría es hermosa. Es una mezcla de embeddings donde los routers también son embeddings. El MoE normal es "mezcla de FFNs donde los routers también son FFNs", pero los KeyFFNs solo son de polarización. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i