HC używa zredukowanych projekcji kroneckera w dół i w górę, ale potrzebuje operacji mieszania H^res. mHC strategicznie wymaga, aby H^res były macierzami podwójnie stochastycznymi, co jest zamknięciem względem matmul. (ortogonalne może też działać) LatentMoE używa pełnych macierzy do projekcji w dół i w górę.