J'ai lu rapidement le dernier article de DeepSeek () Je vais partager ma compréhension superficielle, n'hésitez pas à corriger les erreurs. Cette recherche (mHC) offre essentiellement une solution de mise à niveau de modèle "à faible coût et à haut rendement" pour l'industrie de l'IA. Performance du modèle : amélioration significative de la "capacité de réflexion" plus intelligente : Sans changer l'architecture de base du modèle, mHC a considérablement amélioré la capacité de traitement de l'IA. Dans les tests reflétant le raisonnement logique et la compréhension de lecture (comme BBH et DROP), la performance a augmenté de 2,1 % à 2,3 %. Cela signifie que le modèle se comportera davantage comme un "expert" plutôt qu'un "répétiteur" lors du traitement de tâches complexes telles que la logique commerciale ou l'analyse financière. Coût d'entraînement : une perte de performance extrêmement faible pour un rapport coût-efficacité élevé : Bien que cette nouvelle technologie augmente la largeur de transmission de l'information, grâce à une optimisation approfondie du logiciel et du matériel, lors de l'entraînement d'un grand modèle de 27 milliards de paramètres, le coût en temps n'a augmenté que d'environ 6,7 %. Pour les investisseurs, cela signifie qu'avec un coût supplémentaire d'électricité et de puissance de calcul très faible, ils obtiennent une performance de modèle de niveau supérieur. Stabilité d'entraînement : éviter les pertes d'actifs dues à "l'effondrement de l'entraînement" dire adieu aux pannes : Les tentatives similaires précédentes (comme HC) cherchaient également à élargir la route de l'information, mais en raison d'un manque de contraintes, les grands modèles avaient souvent tendance à "devenir fous" ou à s'effondrer (saut de perte) à mi-parcours de l'entraînement, entraînant un gaspillage de ressources de calcul précieuses. mHC utilise un "sort mathématique d'équilibre" (contrainte de variété) pour garantir que le modèle reste extrêmement robuste pendant l'entraînement, protégeant ainsi l'investissement coûteux en puissance de calcul contre un effondrement systémique. Exigences en mémoire : résoudre le "goulot d'étranglement matériel" grâce à l'ingéniosité algorithmique utiliser la mémoire intelligemment : Cette technologie a élargi les "voies" de l'information par 4, ce qui théoriquement consommerait beaucoup de mémoire. Cependant, DeepSeek a utilisé une technique appelée "recalcul sélectif" pour économiser une grande quantité d'espace mémoire avec un peu de temps de calcul supplémentaire. Cela permet aux cartes graphiques haut de gamme existantes comme les H100/H200 de faire fonctionner cette architecture plus complexe sans augmenter les coûts matériels. Potentiel futur : briser la limite traditionnelle de "l'accumulation de machines" nouveau point de croissance : Auparavant, l'amélioration de la performance du modèle reposait principalement sur "l'accumulation de données" et "l'accumulation de GPU". mHC a ouvert une troisième voie : optimiser la structure interne du modèle. Il a prouvé qu'en améliorant la manière dont les couches sont connectées, même sans augmenter aveuglément la taille du modèle, il est possible d'extraire continuellement plus de bénéfices de performance. Analogie du point de vue des investisseurs : Si l'on considère qu'un grand modèle est une usine, alors les mises à niveau précédentes reposaient sur l'augmentation du nombre de travailleurs (augmentation des paramètres). mHC, quant à lui, a réorganisé la chaîne de production et les canaux logistiques de l'usine sans vraiment augmenter le nombre de postes de travail. Il a élargi les bandes transporteuses de plusieurs fois pour transporter plus de pièces, tout en s'assurant grâce à un système de gestion du trafic précis que l'usine ne s'arrête pas en raison de congestions logistiques. Le résultat final est : l'efficacité de l'usine a considérablement augmenté, tandis que vos coûts d'électricité et de maintenance des équipements sont restés presque inchangés.
"mHC n'a pas fondamentalement réduit la demande de mémoire pour l'IA, mais a plutôt augmenté la pression sur la mémoire en raison de sa conception multi-flux" @rickawsb J'ai regardé, ce mHC nécessite théoriquement plus de mémoire.
508