😅
qui a dit que "utiliser k3 dans la perte = utiliser le grad par chemin"???
la bonne façon d'utiliser k3 dans la perte est d'utiliser le grad COMPLET.
OG GRPO a utilisé k3 sans correction IS (= grad par chemin), ce qui est faux. mais ce n'est pas la faute de k3!!!
Au cours des 6 derniers mois, la vitesse de NanoGPT pour atteindre une perte de 3,28 sur FineWeb a chuté de 33 % à 2 minutes. Récemment, un sous-ensemble de ces changements a été copié-collé en masse sur la piste de perte à plus grande échelle de 2,92. Étonnamment, la course yolo non réglée a battu le record de perte de 2,92 de 25 %.
HC utilise des projections factorisées de Kronecker vers le bas et vers le haut, mais il a besoin d'une opération de mélange H^res.
mHC nécessite stratégiquement que H^res soit des matrices doublement stochastiques, ce qui est une fermeture par rapport à matmul.
(peut-être que l'orthogonal fonctionne aussi)
LatentMoE utilise des matrices complètes pour les projections vers le bas et vers le haut.
Intéressant. HyperConnection et LatentMoE font en fait des choses similaires.
screenshot pris du nouveau papier de deepseek (téléchargé par Liang)
cc @teortaxesTex