HC usa projeções de Kronecker fatoradas para baixo e para cima, mas precisa de uma operação de mistura H^res. mHC estrategicamente exige que H^res seja duplamente matrizes estocásticas, o que é um fechamento em relação a matmul. (ortogonal talvez também funcione) O LatentMoE usa matrizes completas para projeções descendentes e ascendentes.