HC använder kroneckerfaktoriserade ned-och-upp-projektioner, men det krävs en blandningsoperation H^res. mHC kräver strategiskt att H^res är dubbelt stokastiska matriser, vilket är en stängning med avseende på matmul. (ortogonalt kanske också fungerar) LatentMoE använder hela matriser för ned- och uppprojektioner.