HC використовує факторизовані проекції вниз і вгору за Кронекером, але для цього потрібна операція змішування H^res. mHC стратегічно вимагає, щоб H^res були подвійно стохастичними матрицями, що є замиканням у матмулі з .р.т. (ортогональна теж, можливо, теж працює) LatentMoE використовує повні матриці для прогнозів вниз і вгору.