Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek vient de résoudre l'un des problèmes les plus anciens de l'IA.
(en utilisant un algorithme vieux de 60 ans)
Voici l'histoire :
Lorsque l'apprentissage profond a décollé, les chercheurs ont rencontré un mur. On ne peut pas simplement empiler les couches indéfiniment. Les signaux explosent ou disparaissent. Entraîner des réseaux profonds était presque impossible.
Les ResNets ont résolu ce problème en 2016 avec des connexions résiduelles :
sortie = entrée + ce que la couche a appris
Ce "+" crée une autoroute directe pour l'information. C'est pourquoi nous pouvons maintenant entraîner des réseaux avec des centaines de couches.
Récemment, les chercheurs se sont demandé : que se passerait-il si nous avions plusieurs autoroutes au lieu d'une seule ?
Les Hyper-Connexions (HC) ont élargi cette voie unique en 4 voies parallèles avec des matrices apprenables qui mélangent l'information entre les flux.
Les gains de performance étaient réels. Mais il y avait un problème :
Ces matrices de mélange se cumulent à travers les couches. Une petite amplification de 5 % par couche devient 18x après 60 couches. L'article a mesuré une amplification atteignant 3000x. L'entraînement s'effondre.
Les solutions habituelles ? Le clipping de gradient. Une initialisation soigneuse. Espérer que les choses s'arrangent.
Ce sont des astuces. Et les astuces ne sont pas évolutives.
DeepSeek est revenu aux principes fondamentaux. Quelle contrainte mathématique garantirait la stabilité ?
La réponse se trouvait dans un article de 1967 : l'algorithme de Sinkhorn-Knopp.
Il force les matrices de mélange à être "doubly stochastic", où les lignes et les colonnes s'additionnent chacune à 1.
Les résultats :
- Instabilité de 3000x réduite à 1.6x
- Stabilité garantie par les mathématiques, pas par la chance
- Seulement 6.7 % de surcharge d'entraînement supplémentaire
Pas d'astuces. Juste des mathématiques.
J'ai partagé le lien vers l'article dans le tweet suivant.

papier:
308
Meilleurs
Classement
Favoris
