Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les trois derniers articles publiés par DeepSeek portent tous la signature de Liang Wenfeng, et le contenu des articles est également très intéressant.
Surtout celui qui parle d'Engram, où DeepSeek a essentiellement donné au modèle un "dictionnaire" pour l'examen, libérant ainsi de la capacité cérébrale pour se concentrer sur des problèmes difficiles.
Mais ils ont découvert que si le modèle est entièrement basé sur la mémoire (Engram), c'est un étudiant qui ne fait que mémoriser, incapable de penser.
Mais si c'est entièrement basé sur le raisonnement (MOE), cela gaspille une quantité considérable de puissance de calcul pour déduire des connaissances fixes comme "Quelle est la capitale de la Chine ?".
Alors, combien de mémoire faut-il pour l'examen ?
DeepSeek a étudié un modèle avec un ratio d'or entre "mémoire" et "pensée".
Le meilleur ratio mesuré est : 75 % pour la pensée, 25 % pour la mémoire.
Cette conclusion pourrait non seulement s'appliquer aux modèles, mais mérite également une réflexion profonde de la part des humains.
Lorsqu'une personne se souvient de tous les détails, cela équivaut à ne pas avoir d'espace pour penser.
La pensée logique, l'abstraction appropriée, est la source du progrès humain.
Lorsqu'une personne n'a absolument aucune connaissance, elle gaspille son énergie mentale à réfléchir sur les choses les plus basiques, tournant en rond.
DeepSeek a mesuré que l'ajout d'un dictionnaire a réduit la réflexion, permettant au modèle d'atteindre une profondeur de pensée équivalente à 7 couches de réseau.
On ne s'attendait pas à ce que l'étendue des connaissances augmente la profondeur de la pensée de cette manière.
C'est très inspirant.
Meilleurs
Classement
Favoris
