HC utilise des projections factorisées de Kronecker vers le bas et vers le haut, mais il a besoin d'une opération de mélange H^res. mHC nécessite stratégiquement que H^res soit des matrices doublement stochastiques, ce qui est une fermeture par rapport à matmul. (peut-être que l'orthogonal fonctionne aussi) LatentMoE utilise des matrices complètes pour les projections vers le bas et vers le haut.