YHDEKSÄN VUODEN TIE DEEPSEEKIN HYPERYHTEYKSIIN Hyvää uutta vuotta! Olen viettänyt viimeiset kaksi päivää syvässä kaninkolossa DeepSeek-artikkelin alkuperästä Manifold-rajoitetuista hyperyhteyksistä. Se tuli vähän yllättäen, joten kaivoin vanhempia töitä, joiden päälle se rakentuu. -> Kaikki alkaa ResNetsistä vuonna 2016 (x_{l+1} = x_l + F(x_l) -muotoilu). Hän ym. osoittivat, että identiteettitermi muuttumattomana on se, mikä tekee syvistä verkoista ylipäätään koulutettavissa. -> DenseNet ja FractalNet (2016-17) yrittivät yhdistää jokaisen kerroksen toiseen kerrokseen. Toimi paremmin, mutta yhteydet olivat korjattuja, joten verkko ei oppinut mitään -> DenseFormer teki viime vuonna keskiarvopainojen laskemisesta opittavaa. Saat painotetun yhdistelmän kaikista aiemmista kerroslähtöistä (mutta silti vain yhden jäljelle jäävän virran). -> Hyper-Connections syyskuusta 2024 meni eri suuntaan. Yhteyksien sijaan he leventävät virtaa. Laajenna C:stä n×C-ulottuvuuteen, lisää opittavia sekoitusmatriiseja n virtauksen väliin -> Tässä kohtaa menee mielenkiintoiseksi! Kun kerroksia pinotaan, nämä sekoitusmatriisit moninkertaistuvat keskenään. Jos ne eivät ole rajoitettuja, tuote voi räjähtää. DeepSeek havaitsi vahvistuksen suuruudet noin 3000-kertaiset 27B-malleissaan. Koko identiteettikartoituksen idea on poissa. mHC korjaa tämän rajoittamalla sekoitusmatriisit kaksinkertaiseksi stokastisiksi Sinkhorn-Knopp-iteraatioiden avulla. Näillä matriiseilla on spektrinormi <= 1, ja ne pysyvät kaksinkertaisesti stokastisina, kun ne kerrotaan keskenään. Gain laskee ~1,6x:een. Siinä on mukava yhteys vuoden 2021 Sinkformersin artikkeliin, jossa Sinkhornia sovellettiin huomiomatriiseihin. mHC tekee saman, mutta jäännösliitännöille! Lopputulos = vakaa koulutus, voittaa sekä perus- että epävakaan HC:n, 6,7 % järjestelmän optimoinnin jälkeen!! Jäljelle jäänyt yhteys on ollut käytännössä koskematon vuodesta 2016 lähtien. Tämä saattaa olla jonkin suuren LFG:n alku.