Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les hacks ne se développent pas. Les mathématiques le font.
DeepSeek vient de le prouver.
Ils ont sorti un banger pour clôturer 2025.
"mHC : Hyper-Connexions à Manifold Contraint."
Voici pourquoi c'est important :
Lorsque l'apprentissage profond a décollé, les chercheurs ont rencontré un mur. On ne peut pas simplement empiler les couches sans fin ; les signaux explosent ou disparaissent. Entraîner des réseaux profonds était presque impossible.
Les ResNets ont résolu ce problème en 2016 avec des connexions résiduelles :
sortie = entrée + ce que la couche a appris
Ce "+" crée une autoroute directe pour l'information. C'est pourquoi nous pouvons maintenant entraîner des réseaux avec des centaines de couches.
Récemment, les chercheurs se sont demandé : Que se passerait-il si nous avions plusieurs autoroutes au lieu d'une seule ?
Les Hyper-Connexions (HC) ont élargi cette voie unique en 4 voies parallèles avec des matrices apprenables qui mélangent l'information entre les flux.
Les gains de performance étaient réels. Mais il y avait un problème :
Ces matrices de mélange se cumulent à travers les couches. Une petite amplification de 5 % par couche devient 18x après 60 couches. L'article a mesuré une amplification atteignant 3000x, entraînant des effondrements d'entraînement.
Les solutions habituelles : le clipping de gradient, une initialisation soigneuse, et espérer que les choses fonctionnent.
DeepSeek est revenu aux principes fondamentaux : quelle contrainte mathématique garantirait la stabilité ?
La réponse se cachait dans un algorithme vieux de 59 ans (Sinkhorn-Knopp 1967)
Il force les matrices de mélange à être doublement stochastiques, ce qui signifie que les lignes et les colonnes s'additionnent chacune à 1.
Les résultats :
- Instabilité de 3000x → 1.6x
- Stabilité garantie par les mathématiques, pas par la chance
- Seulement 6.7 % de surcharge d'entraînement supplémentaire
Pas de hacks. Juste des mathématiques.
Si vous voulez en lire plus, j'ai partagé le lien vers l'article dans le tweet suivant.

papier:
205
Meilleurs
Classement
Favoris
