DEVÍTILETÁ CESTA HYPER-KONTAKTŮ DEEPSEEK Šťastný nový rok! Poslední dva dny jsem strávil hlubokým zkoumáním původu článku DeepSeek o hyper propojeních omezených mnohonásobně. Přišlo to tak trochu z ničeho, tak jsem se pustil do starších děl, na kterých to staví. -> Vše začíná ResNets v roce 2016 (formulace x_{l+1} = x_l + F(x_l)). On a kol. ukázali, že průchod identity termínem bez změny je tím, co vůbec umožňuje trénovat hluboké sítě. -> DenseNet a FractalNet (2016–17) se pokusily propojit každou vrstvu s každou druhou vrstvou. Fungovalo to lépe, ale spojení byla opravená, takže síť se nic nenaučila -> DenseFormer loni umožnil naučit se průměrné váhy. Dostanete váženou kombinaci všech předchozích výstupů vrstev (ale stále jen jeden zbytkový proud) -> Hyper-Connections ze září 2024 se vydaly jiným směrem. Místo dalších spojení rozšiřují proud. Rozšiřte z C na n×C dimenze, přidejte naučitelné míchací matice mezi n proudy -> Tady to začíná být zajímavé! Když vrstvíte vrstvy, tyto míchací matice se násobí. Pokud nejsou omezené, produkt může explodovat. DeepSeek zjistil magnitudy zesílení kolem 3000x u svých modelů 27B. Celý smysl mapování identity je pryč. mHC to řeší tím, že omezuje míchací matice na dvojnásobné stochastické pomocí Sinkhorn-Knoppových iterací. Tyto matice mají spektrální normu <= 1 a zůstávají dvojnásobně stochastické, když jsou vynásobeny dohromady. Zisk klesne na ~1,6x. Existuje pěkná souvislost s článkem Sinkformers z roku 2021, který aplikoval Sinkhorn na matice pozornosti. mHC dělá totéž, ale u zbytkových spojení! Konečný výsledek = stabilní trénink, překoná jak základní, tak nestabilní HC, režijní režii 6,7 % po optimalizaci systému!! Zbytkové spojení zůstalo prakticky nedotčené od roku 2016. Tohle může být začátek něčeho velkého LFG