HC gebruikt kronecker gefactoriseerde neer- en op-projecties, maar het heeft een mengoperatie H^res nodig.
mHC vereist strategisch dat H^res dubbel stochastische matrices zijn, wat een sluiting is ten opzichte van matmul.
(orthogonaal werkt misschien ook)
LatentMoE gebruikt volledige matrices voor neer- en op-projecties.
Interessant. HyperConnection en LatentMoE doen eigenlijk vergelijkbare dingen.
screenshot genomen uit het nieuwe paper van deepseek (geüpload door Liang)
cc @teortaxesTex
Interessant. HyperConnection en LatentMoE doen eigenlijk vergelijkbare dingen.
screenshot genomen uit het nieuwe paper van deepseek (geüpload door Liang)
cc @teortaxesTex