Au cours des 6 derniers mois, la vitesse de NanoGPT pour atteindre une perte de 3,28 sur FineWeb a chuté de 33 % à 2 minutes. Récemment, un sous-ensemble de ces changements a été copié-collé en masse sur la piste de perte à plus grande échelle de 2,92. Étonnamment, la course yolo non réglée a battu le record de perte de 2,92 de 25 %.
HC utilise des projections factorisées de Kronecker vers le bas et vers le haut, mais il a besoin d'une opération de mélange H^res.
mHC nécessite stratégiquement que H^res soit des matrices doublement stochastiques, ce qui est une fermeture par rapport à matmul.
(peut-être que l'orthogonal fonctionne aussi)
LatentMoE utilise des matrices complètes pour les projections vers le bas et vers le haut.
Intéressant. HyperConnection et LatentMoE font en fait des choses similaires.
screenshot pris du nouveau papier de deepseek (téléchargé par Liang)
cc @teortaxesTex
Intéressant. HyperConnection et LatentMoE font en fait des choses similaires.
screenshot pris du nouveau papier de deepseek (téléchargé par Liang)
cc @teortaxesTex