Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DEVÍTILETÁ CESTA HYPER-KONTAKTŮ DEEPSEEK
Šťastný nový rok! Poslední dva dny jsem strávil hlubokým zkoumáním původu článku DeepSeek o hyper propojeních omezených mnohonásobně. Přišlo to tak trochu z ničeho, tak jsem se pustil do starších děl, na kterých to staví.
-> Vše začíná ResNets v roce 2016 (formulace x_{l+1} = x_l + F(x_l)). On a kol. ukázali, že průchod identity termínem bez změny je tím, co vůbec umožňuje trénovat hluboké sítě.
-> DenseNet a FractalNet (2016–17) se pokusily propojit každou vrstvu s každou druhou vrstvou. Fungovalo to lépe, ale spojení byla opravená, takže síť se nic nenaučila
-> DenseFormer loni umožnil naučit se průměrné váhy. Dostanete váženou kombinaci všech předchozích výstupů vrstev (ale stále jen jeden zbytkový proud)
-> Hyper-Connections ze září 2024 se vydaly jiným směrem. Místo dalších spojení rozšiřují proud. Rozšiřte z C na n×C dimenze, přidejte naučitelné míchací matice mezi n proudy
-> Tady to začíná být zajímavé! Když vrstvíte vrstvy, tyto míchací matice se násobí. Pokud nejsou omezené, produkt může explodovat. DeepSeek zjistil magnitudy zesílení kolem 3000x u svých modelů 27B. Celý smysl mapování identity je pryč.
mHC to řeší tím, že omezuje míchací matice na dvojnásobné stochastické pomocí Sinkhorn-Knoppových iterací. Tyto matice mají spektrální normu <= 1 a zůstávají dvojnásobně stochastické, když jsou vynásobeny dohromady. Zisk klesne na ~1,6x.
Existuje pěkná souvislost s článkem Sinkformers z roku 2021, který aplikoval Sinkhorn na matice pozornosti. mHC dělá totéž, ale u zbytkových spojení!
Konečný výsledek = stabilní trénink, překoná jak základní, tak nestabilní HC, režijní režii 6,7 % po optimalizaci systému!!
Zbytkové spojení zůstalo prakticky nedotčené od roku 2016. Tohle může být začátek něčeho velkého LFG

Top
Hodnocení
Oblíbené
