Jeg elsker Engrams kontekstbevisste portdesign. Symmetrien er vakker. Det er en blanding av embeddings hvor rutere også er embeddings. Vanlig MoE er «en blanding av FFN-er hvor rutere også er FFN-er», men KeyFFN-er er kun bias. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i