Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek właśnie rozwiązał jeden z najstarszych problemów AI.
(używając 60-letniego algorytmu)
Oto historia:
Kiedy głębokie uczenie zyskało na popularności, badacze napotkali ścianę. Nie można po prostu nieskończoność warstw układać jedna na drugiej. Sygnały albo eksplodują, albo znikają. Trenowanie głębokich sieci było niemal niemożliwe.
ResNety rozwiązały to w 2016 roku dzięki połączeniom resztkowym:
wyjście = wejście + to, czego nauczyła się warstwa
To "+" tworzy bezpośrednią autostradę dla informacji. Dlatego teraz możemy trenować sieci z setkami warstw.
Ostatnio badacze zapytali: co by było, gdybyśmy mieli wiele autostrad zamiast jednej?
Hyper-Połączenia (HC) rozszerzyły ten pojedynczy pas na 4 równoległe pasy z uczącymi się macierzami, które mieszają informacje między strumieniami.
Zyski wydajności były rzeczywiste. Ale był problem:
Te macierze mieszające kumulują się w warstwach. Niewielkie 5% wzmocnienia na warstwę staje się 18x po 60 warstwach. W artykule zmierzono wzmocnienie osiągające 3000x. Trenowanie się załamuje.
Zwykłe rozwiązania? Przycinanie gradientów. Ostrożna inicjalizacja. Liczenie na to, że wszystko się ułoży.
To są sztuczki. A sztuczki nie skalują się.
DeepSeek wrócił do podstawowych zasad. Jaki matematyczny warunek zapewniłby stabilność?
Odpowiedź znajdowała się w artykule z 1967 roku: algorytm Sinkhorna-Knoppa.
Wymusza on, aby macierze mieszające były "podwójnie stochastyczne", gdzie wiersze i kolumny sumują się do 1.
Wyniki:
- 3000x niestabilność zredukowana do 1.6x
- Stabilność gwarantowana przez matematykę, a nie szczęście
- Tylko 6.7% dodatkowego obciążenia treningowego
Bez sztuczek. Tylko matematyka.
Podzieliłem się linkiem do artykułu w następnym tweecie.

papier:
294
Najlepsze
Ranking
Ulubione
