HC utiliza proyecciones descendientes y ascendentes factorizadas por Kronecker, pero necesita una operación de mezcla H^res. mHC requiere estratégicamente que H^res sea doble matrice estocástica, lo cual es un cierre respecto a matmul. (quizá ortogonal también funcione) LatentMoE utiliza matrices completas para proyecciones descendentes y ascendentes.