DeepSeek korjasi juuri yhden tekoälyn vanhimmista ongelmista. (käyttäen 60 vuotta vanhaa algoritmia) Tässä on tarina: Kun syväoppiminen lähti lentoon, tutkijat törmäsivät seinään. Et voi vain pinota kerroksia loputtomasti. Signaalit joko räjähtävät tai katoavat. Syvien verkostojen kouluttaminen oli lähes mahdotonta. ResNets ratkaisi tämän vuonna 2016 jäännösliitoksilla: output = input + mitä kerros oppi Tuo "+" luo suoran tie tieyhteydelle. Siksi voimme nyt kouluttaa verkkoja, joissa on satoja kerroksia. Äskettäin tutkijat kysyivät: entä jos meillä olisi useita valtateitä yhden sijaan? Hyper-Connections (HC) laajensi tuon yksittäisen kaistan neljäksi rinnakkaiskaistaksi, joissa on opittavissa olevia matriiseja, jotka sekoittavat tietoa virtojen välillä. Suorituskyvyn parannukset olivat todellisia. Mutta ongelma oli: Nämä sekoitusmatriisit kasaantuvat kerrosten välillä. Pieni 5 % vahvistus per kerros muuttuu 18-kertaiseksi 60 kerroksen jälkeen. Artikkeli mittasi vahvistuksen nousevan 3000-kertaiseksi. Koulutus romahtaa. Tavalliset korjaukset? Gradienttileikkaus. Tarkka alustus. Toivon, että asiat järjestyvät. Nämä ovat huijareja. Ja hakkerit eivät skaalaudu. DeepSeek palasi ensimmäisiin periaatteisiin. Mikä matemaattinen rajoite takaisi vakauden? Vastaus oli vuoden 1967 artikkelissa: Sinkhorn-Knopp-algoritmi. Se pakottaa sekoitusmatriisit olemaan "kaksinkertaisesti stokastisia", joissa rivit ja sarakkeet summautuvat yhteen. Tulokset: - 3000x epävakaus alennettu 1,6x:een - Vakaus takaa matematiikka, ei onni - Vain 6,7 % lisäkoulutuskustannuksia Ei kikkailua. Pelkkää matematiikkaa. Olen jakanut linkin lehteen seuraavassa twiitissä.
paperi:
296