Adoro il design di gating consapevole del contesto di Engram. La sua simmetria è bellissima. È una miscela di embedding in cui i router sono anche embedding. Il MoE regolare è "miscela di FFN in cui i router sono anche FFN" ma i KeyFFN sono solo bias. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i