Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De tre nylige papirene publisert av DeepSeek er alle signert av Liang Wenfeng, og innholdet i papirene er også veldig interessant.
Spesielt i artikkelen om Engram er DeepSeek det samme som å ta med en "ordbok" til modellen inn i undersøkelsesrommet, og frigjøre mekanisk hjernekapasitet for vanskelige oppgaver.
Men de fant ut at hvis modellen handlet om hukommelse (Engram), var det en rutinenerd som ikke kunne tenke i det hele tatt.
Men hvis alt bare er slutning (MOE), sløses mye datakraft bort på å utlede fast kunnskap som «hvor er Kinas hovedstad».
Hvor mange minner må du ta med til eksamen?
DeepSeek har utviklet en modell for det gyldne snittet mellom «minne» og «tenkning».
Det beste målte forholdet til slutt var: 75 % for tenkning og 25 % for hukommelse.
Denne konklusjonen kan ikke bare være passende for modellen, men også verdt å tenke over.
Når en person husker alle detaljene, tilsvarer det å ikke ha rom til å tenke.
Logisk tenkning, passende abstrakt, er kilden til menneskelig fremgang.
Når en person ikke har noen kunnskap i det hele tatt, kaster han bare bort hjerneenergien sin på å tenke på de mest grunnleggende tingene, og hjernen går i dvale.
DeepSeek målte at etter å ha lagt til en ordbok for å redusere tenkning, har modellen en ekstra tenkedybde tilsvarende det til et 7-lags nettverk.
Uventet øker bredden av kunnskap dybden i tankegangen på denne måten.
Veldig inspirerende.
Topp
Rangering
Favoritter
