Knel ned og les den siste artikkelen i deepseek () La oss ta en overfladisk forståelse, og alle vil rette opp det som er galt Denne studien (mHC) gir i hovedsak en «lavkostnads, høyavkastning» modelloppgraderingsløsning for AI-industrien. Modelleffekt: Betydelig forbedre «tenkeevnen» Smartere: mHC forbedrer AIs prosesseringskraft betydelig uten å endre modellinfrastrukturen. På tester som reflekterer logisk resonnement og leseforståelse, som BBH og DROP, forbedres ytelsen med 2,1 % til 2,3 %. Dette betyr at modellen vil oppføre seg mer som en «ekspert» enn en «repeater» når den håndterer oppgaver som kompleks forretningslogikk, finansiell analyse osv. Opplæringskostnad: Ekstremt lavt ytelsestap i bytte mot høy lønnsomhet. Kostnadseffektivt: Selv om denne nye teknologien øker overføringsbredden til informasjon, øker tidskostnaden for å faktisk trene en stor modell med 27 milliarder parametere bare med omtrent 6,7 % gjennom dyp programvare- og maskinvare-samarbeidsoptimalisering. For investorer betyr dette å bytte ut en svært liten mengde ekstra investering i elektrisitet og datakraft mot en høyere modellytelse. Treningsstabilitet: Unngå tap av eiendeler forårsaket av "treningskollaps" og si farvel til døde maskiner: Selv om lignende forsøk (som HC) også har forsøkt å utvide informasjonsruten, går store modeller ofte "amok" eller krasjer (tapshopp) midt i treningen på grunn av mangel på begrensninger, noe som resulterer i sløsing med verdifulle datakrafter. mHC bruker matematiske "balanseringsformler" (mangfoldige begrensninger) for å sikre at modellen er ekstremt robust under trening, og beskytter kostbare datakraftinvesteringer mot systemiske kollaps. Minnekrav: Smarte løsninger på «maskinvareflaskehalser» gjennom algoritmer Smart bruk av minne: Denne teknologien utvider informasjonsbanen med fire ganger, noe som teoretisk sett vil bruke mye minne. Men DeepSeek sparer mye minneplass med litt ekstra regnetid gjennom en teknikk kalt «selektiv omberegning». Dette gjør det mulig for eksisterende avanserte grafikkort som H100/H200 å kjøre denne mer komplekse arkitekturen uten å øke maskinvarekostnadene. Fremtidig potensial: Å bryte den tradisjonelle øvre grensen for "heap-maskiner" Nye vekstpunkter: Tidligere var forbedring av modelleffekter hovedsakelig basert på "heap-data" og "heap-GPU". mHC åpner en tredje vei: å optimalisere det interne skjelettet i modellen. Det beviser at ved å forbedre forbindelsen mellom lagene, kan flere ytelsesfordeler kontinuerlig presses ut selv om modellstørrelsen ikke økes blindt. Analogi fra investorers perspektiv: Hvis den store modellen er en fabrikk, var den forrige oppgraderingen ved å øke antall arbeidere (øke parametere). mHC, derimot, effektiviserer fabrikkens samlebånd og logistikkkanaler uten å øke antallet arbeidsstasjoner. Det utvider ikke bare transportbåndet flere ganger for å transportere flere deler, men sikrer også at fabrikken ikke stopper produksjonen på grunn av logistikkbelastning gjennom et sofistikert trafikkstyringssystem. Sluttresultatet er en betydelig økning i anleggets effektivitet, mens kostnadene for strøm og vedlikehold av utstyr forblir praktisk talt uendret.
"mHC reduserer ikke grunnleggende minnebehovet til AI, men øker minnetrykket på grunn av sitt multistream-design" @rickawsb så på dette, trenger mHC teoretisk mer minne
511