HC verwendet kronecker-faktorisierte Abwärts- und Aufwärtsprojektionen, benötigt jedoch eine Mischoperation H^res. mHC erfordert strategisch, dass H^res doppelt stochastische Matrizen sind, was eine Abschlussbedingung in Bezug auf matmul darstellt. (orthogonal könnte auch funktionieren) LatentMoE verwendet vollständige Matrizen für Abwärts- und Aufwärtsprojektionen.