DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Bonk Eco continues to show strength amid $USELESS rally

Hosico+2,03 %

USELESS-0,53 %

IKUN+0,16 %

gib+9,9 %

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-0,06 %

Boopa+7,43 %

PORK+4,05 %

You Jiacheng

You Jiacheng4 janv., 17:44

😅 qui a dit que "utiliser k3 dans la perte = utiliser le grad par chemin"??? la bonne façon d'utiliser k3 dans la perte est d'utiliser le grad COMPLET. OG GRPO a utilisé k3 sans correction IS (= grad par chemin), ce qui est faux. mais ce n'est pas la faute de k3!!!

You Jiacheng2 janv., 09:55

franchement, je ne m'y attendais pas. mais avec le recul, de nombreux changements semblent transférables.

Larry Dial2 janv., 05:55

Au cours des 6 derniers mois, la vitesse de NanoGPT pour atteindre une perte de 3,28 sur FineWeb a chuté de 33 % à 2 minutes. Récemment, un sous-ensemble de ces changements a été copié-collé en masse sur la piste de perte à plus grande échelle de 2,92. Étonnamment, la course yolo non réglée a battu le record de perte de 2,92 de 25 %.

You Jiacheng1 janv., 15:18

HC utilise des projections factorisées de Kronecker vers le bas et vers le haut, mais il a besoin d'une opération de mélange H^res. mHC nécessite stratégiquement que H^res soit des matrices doublement stochastiques, ce qui est une fermeture par rapport à matmul. (peut-être que l'orthogonal fonctionne aussi) LatentMoE utilise des matrices complètes pour les projections vers le bas et vers le haut.

You Jiacheng1 janv., 15:08

Intéressant. HyperConnection et LatentMoE font en fait des choses similaires. screenshot pris du nouveau papier de deepseek (téléchargé par Liang) cc @teortaxesTex

Meilleurs

Classement

Favoris