Ho letto rapidamente l'ultimo articolo di deepseek () Faccio una comprensione superficiale, se ci sono errori, vi prego di correggermi. Questo studio (mHC) offre essenzialmente una soluzione di aggiornamento del modello "a basso costo e ad alto rendimento" per l'industria dell'AI. Efficacia del modello: notevolmente potenziata la "capacità di pensiero" più intelligente: senza modificare l'architettura di base del modello, mHC ha notevolmente migliorato la capacità di elaborazione dell'AI. Nei test che riflettono il ragionamento logico e la comprensione della lettura (come BBH e DROP), le prestazioni sono aumentate dal 2,1% al 2,3%. Ciò significa che il modello si comporterà più come un "esperto" piuttosto che come un "ripetitore" quando affronta compiti complessi di logica commerciale, analisi finanziaria, ecc. Costo di addestramento: prestazioni estremamente basse con un alto rapporto costo-efficacia: sebbene questa nuova tecnologia aumenti la larghezza di trasmissione delle informazioni, grazie a una profonda ottimizzazione sinergica di software e hardware, durante l'addestramento di un grande modello con 27 miliardi di parametri, il costo temporale è aumentato solo di circa il 6,7%. Per gli investitori, ciò significa che con un piccolo costo aggiuntivo di elettricità e potenza di calcolo, si ottiene una prestazione del modello di livello superiore. Stabilità dell'addestramento: evitando le perdite di asset causate dal "collasso dell'addestramento" addio ai blocchi: tentativi simili in passato (come HC) volevano ampliare la strada delle informazioni, ma a causa della mancanza di vincoli, i grandi modelli spesso "impazzivano" o collassavano (salti di Loss) a metà dell'addestramento, causando uno spreco di preziose risorse di calcolo. mHC, attraverso un "incantesimo di bilanciamento" matematico (vincolo di varietà), garantisce che il modello sia estremamente robusto durante il processo di addestramento, proteggendo l'investimento costoso in potenza di calcolo da crolli sistematici. Requisiti di memoria: risolvendo il "collo di bottiglia hardware" con astuzia algoritmica uso intelligente della memoria: questa tecnologia ha ampliato le "corsie" delle informazioni di 4 volte, teoricamente richiederebbe molta memoria. Ma DeepSeek, attraverso una tecnologia chiamata "ricomputazione selettiva", ha risparmiato una grande quantità di spazio di memoria video con un po' di tempo di calcolo extra. Questo consente alle schede grafiche di alta gamma esistenti come H100/H200 di eseguire questa architettura più complessa senza aumentare i costi hardware. Potenziale futuro: rompere il limite tradizionale del "cumulo di macchine" nuovo punto di crescita: in passato, il miglioramento delle prestazioni del modello si basava principalmente sull'aumento dei dati e delle GPU. mHC ha aperto una terza strada: ottimizzare la struttura interna del modello. Ha dimostrato che migliorando il modo in cui i livelli sono connessi, anche senza aumentare ciecamente le dimensioni del modello, è possibile continuare a spremere più dividendi di prestazione. Analogia dal punto di vista degli investitori: se i grandi modelli sono una fabbrica, gli aggiornamenti passati si basavano sull'aumento del numero di lavoratori (aumento dei parametri). mHC, invece, ha riorganizzato la catena di montaggio e i canali logistici della fabbrica senza aumentare significativamente il numero di postazioni di lavoro. Ha ampliato le corsie di trasporto per trasportare più pezzi e ha implementato un sistema di gestione del traffico preciso per garantire che la fabbrica non si fermi a causa di congestioni logistiche. Il risultato finale è: l'efficienza della fabbrica è notevolmente aumentata, mentre le spese per elettricità e manutenzione delle attrezzature sono rimaste quasi invariate.
"mHC non ha ridotto fondamentalmente la domanda di memoria da parte dell'AI, anzi, a causa del suo design multi-flusso ha aumentato la pressione sulla memoria" @rickawsb Ho visto che questo mHC teoricamente richiede più memoria.
513