Adoro o design de portões consciente do contexto da Engram. Sua simetria é linda. É uma mistura de embeddings onde roteadores também são embeddings. O MoE comum é "uma mistura de FFNs onde roteadores também são FFNs", mas KeyFFNs são apenas para viés. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i