Ik hou van het contextbewuste gating ontwerp van Engram. De symmetrie is prachtig. Het is een mengsel van embeddings waarbij routers ook embeddings zijn. Reguliere MoE is "mengsel van FFN's waarbij routers ook FFN's zijn" maar KeyFFN's zijn alleen bias. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i