Engramのコンテキスト認識型ゲート設計が大好きです。その対称性は美しい。 これは埋め込みの混合であり、ルーターも埋め込みです。 通常のMoEは「ルーターもFFNであるFFNの混合」ですが、KeyFFNはバイアスのみです。 k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i