Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Poklekněte a přečtěte si nejnovější článek v deepseek ()
Vezmeme povrchní pochopení a každý napraví, co je špatně
Tato studie (mHC) v podstatě poskytuje řešení pro modernizaci modelu s "nízkonákladovými, vysoce výnosnými" pro AI průmysl.
Efekt modelu: Výrazně zlepšuje "schopnost myslet" Chytřeji: mHC výrazně zlepšuje výpočetní výkon AI bez změny infrastruktury modelu. U testů, které odrážejí logické uvažování a porozumění textu, jako jsou BBH a DROP, se výkon zlepšuje o 2,1 % až 2,3 %. To znamená, že model se bude chovat spíše jako "expert" než "opakovač" při práci s úkoly jako složitá obchodní logika, finanční analýza atd.
Náklady na trénink: Extrémně nízká ztráta výkonu výměnou za vysokou ziskovost Nákladově efektivní: Ačkoli tato nová technologie zvyšuje šířku přenosu informací, díky hluboké softwarové a hardwarové kolaborativní optimalizaci se časové náklady na samotný trénink velkého modelu s 27 miliardami parametrů se zvyšují jen asi o 6,7 %. Pro investory to znamená vyměnit velmi malé množství dodatečné investice do elektřiny a výpočetního výkonu za výkon vyššího řádu modelu.
Trénovací stabilita: Vyhněte se ztrátám assetů způsobeným "tréninkovým kolapsem" a rozlučte se s mrtvými stroji: Ačkoliv podobné pokusy (například HC) se také snažily rozšířit informační cestu, kvůli nedostatku omezení se velké modely často "zblázní" nebo spadnou (ztrátové skoky) uprostřed tréninku, což vede k plýtvání cennými výpočetními zdroji. mHC používá matematická "vyvažovací kouzla" (mnohorozměrná omezení), aby zajistila extrémní robustnost modelu během tréninku a chránila nákladné výpočetní investice před systémovými kolapsy.
Požadavky na paměť: Chytrá řešení "hardwarových úzkých míst" pomocí algoritmů Chytré využití paměti: Tato technologie rozšiřuje "pruh" informací čtyřnásobně, což teoreticky spotřebuje velké množství paměti. Ale DeepSeek šetří hodně místa v paměti s trochu více výpočetního času díky technice zvané "selektivní přepočítání". To umožňuje existujícím špičkovým grafickým kartám, jako je H100/H200, provozovat tuto složitější architekturu bez zvyšování nákladů na hardware.
Budoucí potenciál: Překonání tradičního horního limitu "heap strojů" Nové body růstu: Dříve se zlepšovaly efekty modelů hlavně na "heap data" a "heap GPU". mHC otevírá třetí cestu: optimalizaci vnitřní kostry modelu. Dokazuje, že zlepšením propojení mezi vrstvami lze neustále vytlačovat více výkonových dividend, i když velikost modelu není slepě zvětšována.
Analogie z pohledu investorů: Pokud je velký model továrna, pak předchozí upgrade byl zvýšením počtu pracovníků (zvýšením parametrů). mHC naopak přepracovává výrobní linky a logistické kanály továrny, aniž by zvýšila počet pracovních stanic. Nejenže několikrát rozšiřuje dopravník pro přepravu více dílů, ale také zajišťuje, že továrna nezastaví výrobu kvůli logistickým zácpám díky sofistikovanému systému řízení dopravy. Výsledkem je výrazné zvýšení efektivity zařízení, zatímco náklady na elektřinu a údržbu zařízení zůstávají prakticky nezměněné.

"mHC zásadně nesnižuje požadavky na paměť AI, ale zvyšuje tlak na paměť díky svému multi-streamovému designu"
@rickawsb se na to mHC dívala, teoreticky potřebuje více paměti
514
Top
Hodnocení
Oblíbené
