Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przeczytałem najnowszy artykuł DeepSeek ()
Zrozumiałem to w sposób powierzchowny, więc proszę o poprawki, jeśli się mylę.
To badanie (mHC) w kontekście przemysłu AI zasadniczo oferuje model aktualizacji o "niskich kosztach i wysokich zwrotach".
Efekty modelu: znaczne zwiększenie "zdolności myślenia" - mądrzejszy: bez zmiany podstawowej architektury modelu, mHC znacznie poprawił zdolności przetwarzania AI. W testach odzwierciedlających logiczne wnioskowanie i rozumienie tekstu (takich jak BBH i DROP), wydajność wzrosła o 2,1% do 2,3%. Oznacza to, że model będzie działał bardziej jak "ekspert" niż "powtarzacz" w zadaniach związanych z złożoną logiką biznesową, analizą finansową itp.
Koszty treningu: bardzo niskie straty wydajności w zamian za wysoką opłacalność: chociaż ta nowa technologia zwiększa szerokość przesyłania informacji, dzięki głębokiej współpracy optymalizacji oprogramowania i sprzętu, podczas rzeczywistego treningu dużego modelu z 27 miliardami parametrów, czas kosztów wzrósł tylko o około 6,7%. Dla inwestorów oznacza to, że przy minimalnych dodatkowych kosztach energii i mocy obliczeniowej można uzyskać wyższą wydajność modelu.
Stabilność treningu: unikanie strat majątkowych spowodowanych "załamaniem treningu" - pożegnanie z zawieszaniem się: wcześniejsze podobne próby (takie jak HC) również próbowały poszerzyć drogę informacji, ale z powodu braku ograniczeń, duże modele często "szalały" lub załamywały się (skok strat), co prowadziło do marnotrawstwa cennych zasobów obliczeniowych. mHC zapewnia, dzięki matematycznemu "zaklęciu równowagi" (ograniczenia rozmaitości), że model jest niezwykle stabilny w trakcie treningu, chroniąc kosztowne inwestycje w moc obliczeniową przed systemowymi awariami.
Wymagania pamięciowe: rozwiązanie "wąskiego gardła sprzętowego" dzięki sprytowi algorytmu - mądre wykorzystanie pamięci: ta technologia poszerza "pas ruchu" informacji czterokrotnie, co teoretycznie wymagałoby dużej ilości pamięci. Jednak DeepSeek wykorzystuje technologię zwaną "selektywnym przeliczeniem", aby zaoszczędzić dużą ilość pamięci wideo przy minimalnym dodatkowym czasie obliczeniowym. Dzięki temu istniejące karty graficzne wysokiej klasy, takie jak H100/H200, mogą obsługiwać tę bardziej złożoną architekturę bez zwiększania kosztów sprzętu.
Potencjał przyszłości: przełamanie tradycyjnych ograniczeń "stosu maszyn" - nowy punkt wzrostu: wcześniej poprawa efektywności modelu polegała głównie na "stakowaniu danych" i "stakowaniu GPU". mHC otworzył trzecią drogę: optymalizację wewnętrznej struktury modelu. Udowodnił, że poprzez poprawę sposobu łączenia warstw, nawet bez ślepego zwiększania rozmiaru modelu, można nadal uzyskiwać więcej korzyści wydajnościowych.
Analogiczna perspektywa inwestora: jeśli duży model to fabryka, to wcześniejsze aktualizacje polegały na zwiększaniu liczby pracowników (zwiększaniu parametrów). mHC natomiast, nie zwiększając znacznie liczby stanowisk, ponownie uporządkował linię produkcyjną i kanały logistyczne fabryki. Poszerzył taśmę transportową wielokrotnie, aby przewozić więcej części, a także dzięki precyzyjnemu systemowi zarządzania ruchem zapewnił, że fabryka nie zatrzyma się z powodu zatorów logistycznych. Ostatecznym wynikiem jest znaczne zwiększenie efektywności fabryki, podczas gdy koszty energii i utrzymania sprzętu pozostały niemal niezmienione.

"mHC nie zmniejsza zasadniczo zapotrzebowania AI na pamięć, wręcz przeciwnie, jego wielostrumieniowy design zwiększa presję na pamięć"
@rickawsb Zobaczyłem, że ten mHC teoretycznie potrzebuje więcej pamięci.
517
Najlepsze
Ranking
Ulubione
