Les hacks ne se développent pas. Les mathématiques le font. DeepSeek vient de le prouver. Ils ont sorti un banger pour clôturer 2025. "mHC : Hyper-Connexions à Manifold Contraint." Voici pourquoi c'est important : Lorsque l'apprentissage profond a décollé, les chercheurs ont rencontré un mur. On ne peut pas simplement empiler les couches sans fin ; les signaux explosent ou disparaissent. Entraîner des réseaux profonds était presque impossible. Les ResNets ont résolu ce problème en 2016 avec des connexions résiduelles : sortie = entrée + ce que la couche a appris Ce "+" crée une autoroute directe pour l'information. C'est pourquoi nous pouvons maintenant entraîner des réseaux avec des centaines de couches. Récemment, les chercheurs se sont demandé : Que se passerait-il si nous avions plusieurs autoroutes au lieu d'une seule ? Les Hyper-Connexions (HC) ont élargi cette voie unique en 4 voies parallèles avec des matrices apprenables qui mélangent l'information entre les flux. Les gains de performance étaient réels. Mais il y avait un problème : Ces matrices de mélange se cumulent à travers les couches. Une petite amplification de 5 % par couche devient 18x après 60 couches. L'article a mesuré une amplification atteignant 3000x, entraînant des effondrements d'entraînement. Les solutions habituelles : le clipping de gradient, une initialisation soigneuse, et espérer que les choses fonctionnent. DeepSeek est revenu aux principes fondamentaux : quelle contrainte mathématique garantirait la stabilité ? La réponse se cachait dans un algorithme vieux de 59 ans (Sinkhorn-Knopp 1967) Il force les matrices de mélange à être doublement stochastiques, ce qui signifie que les lignes et les colonnes s'additionnent chacune à 1. Les résultats : - Instabilité de 3000x → 1.6x - Stabilité garantie par les mathématiques, pas par la chance - Seulement 6.7 % de surcharge d'entraînement supplémentaire Pas de hacks. Juste des mathématiques. Si vous voulez en lire plus, j'ai partagé le lien vers l'article dans le tweet suivant.
papier:
205