HC использует факторизованные проекции Кронекера вниз и вверх, но ему нужна операция смешивания H^res. mHC стратегически требует, чтобы H^res были двойными стохастическими матрицами, что является замыканием относительно матричного умножения. (ортогональные, возможно, тоже подойдут) LatentMoE использует полные матрицы для проекций вниз и вверх.