HC utiliza projeções fatoradas de Kronecker para baixo e para cima, mas precisa de uma operação de mistura H^res. mHC requer estrategicamente que H^res sejam matrizes duplamente estocásticas, o que é um fechamento em relação ao matmul. (ortogonais talvez também funcionem) LatentMoE utiliza matrizes completas para projeções para baixo e para cima.