Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LE CHEMIN DE 9 ANS VERS LES HYPER-CONNEXIONS DE DEEPSEEK
Bonne année ! J'ai passé les deux derniers jours dans un profond trou de lapin à explorer les origines du document DeepSeek sur les Hyper Connexions contraintes par Manifold. Cela a un peu surgi de nulle part, alors j'ai fouillé dans des travaux plus anciens sur lesquels cela s'appuie.
-> Tout commence avec les ResNets en 2016 (la formulation x_{l+1} = x_l + F(x_l)). He et al. ont montré que le terme d'identité passant sans modification est ce qui rend les réseaux profonds entraînables.
-> DenseNet et FractalNet (2016-17) ont essayé de connecter chaque couche à chaque autre couche. Cela a mieux fonctionné mais les connexions étaient fixes, donc rien n'était appris par le réseau.
-> DenseFormer l'année dernière a rendu les poids d'averaging apprenables. Vous obtenez une combinaison pondérée de toutes les sorties des couches précédentes (mais toujours juste un flux résiduel).
-> Les Hyper-Connexions de septembre 2024 ont pris une direction différente. Au lieu de plus de connexions, elles élargissent le flux. Elles s'étendent de C à n×C dimensions, ajoutent des matrices de mélange apprenables entre les n flux.
-> Voici où cela devient intéressant ! Lorsque vous empilez des couches, ces matrices de mélange se multiplient. Si elles ne sont pas contraintes, le produit peut exploser. DeepSeek a trouvé des magnitudes de gain autour de 3000x dans leurs modèles 27B. Tout le but de la cartographie d'identité est perdu.
mHC corrige cela en contraignant les matrices de mélange à être doublement stochastiques via des itérations de Sinkhorn-Knopp. Ces matrices ont une norme spectrale <= 1 et restent doublement stochastiques lorsqu'elles sont multipliées ensemble. Le gain tombe à ~1.6x.
Il y a une belle connexion avec le document Sinkformers de 2021 qui a appliqué Sinkhorn aux matrices d'attention. mHC fait la même chose mais pour les connexions résiduelles !
Résultat final = entraînement stable, dépasse à la fois la base et les HC instables, 6,7 % de surcharge après optimisation des systèmes !!!
La connexion résiduelle n'a pratiquement pas été touchée depuis 2016. Cela pourrait être le début de quelque chose de grand LFG

Meilleurs
Classement
Favoris
