Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek korjasi juuri yhden tekoälyn vanhimmista ongelmista.
(käyttäen 60 vuotta vanhaa algoritmia)
Tässä on tarina:
Kun syväoppiminen lähti lentoon, tutkijat törmäsivät seinään. Et voi vain pinota kerroksia loputtomasti. Signaalit joko räjähtävät tai katoavat. Syvien verkostojen kouluttaminen oli lähes mahdotonta.
ResNets ratkaisi tämän vuonna 2016 jäännösliitoksilla:
output = input + mitä kerros oppi
Tuo "+" luo suoran tie tieyhteydelle. Siksi voimme nyt kouluttaa verkkoja, joissa on satoja kerroksia.
Äskettäin tutkijat kysyivät: entä jos meillä olisi useita valtateitä yhden sijaan?
Hyper-Connections (HC) laajensi tuon yksittäisen kaistan neljäksi rinnakkaiskaistaksi, joissa on opittavissa olevia matriiseja, jotka sekoittavat tietoa virtojen välillä.
Suorituskyvyn parannukset olivat todellisia. Mutta ongelma oli:
Nämä sekoitusmatriisit kasaantuvat kerrosten välillä. Pieni 5 % vahvistus per kerros muuttuu 18-kertaiseksi 60 kerroksen jälkeen. Artikkeli mittasi vahvistuksen nousevan 3000-kertaiseksi. Koulutus romahtaa.
Tavalliset korjaukset? Gradienttileikkaus. Tarkka alustus. Toivon, että asiat järjestyvät.
Nämä ovat huijareja. Ja hakkerit eivät skaalaudu.
DeepSeek palasi ensimmäisiin periaatteisiin. Mikä matemaattinen rajoite takaisi vakauden?
Vastaus oli vuoden 1967 artikkelissa: Sinkhorn-Knopp-algoritmi.
Se pakottaa sekoitusmatriisit olemaan "kaksinkertaisesti stokastisia", joissa rivit ja sarakkeet summautuvat yhteen.
Tulokset:
- 3000x epävakaus alennettu 1,6x:een
- Vakaus takaa matematiikka, ei onni
- Vain 6,7 % lisäkoulutuskustannuksia
Ei kikkailua. Pelkkää matematiikkaa.
Olen jakanut linkin lehteen seuraavassa twiitissä.

paperi:
296
Johtavat
Rankkaus
Suosikit
