Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek právě vydal skvělý článek na závěr roku 2025
"mHC: Hyper-spojení omezená mnohorozměrem"
Hyper-Connections mění jedinou zbytkovou "dálnici" v transformátorech na n paralelních pruhů a každá vrstva se učí, jak přesouvat a sdílet signál mezi pruhy.
Ale pokud každá vrstva může libovolně zesílit nebo zmenšit pruhy, součin těchto přesunů v hloubce způsobí, že signály/gradienty vyblednou nebo zaniknou.
Proto nutí každé zamíchání zachovávat hmotnost: dvojitě stochastickou matici (nezápornou, každý řádek/sloupec se součítá do 1). Každá vrstva může pouze přerozdělovat signál mezi linkami, ne jej vytvářet nebo ničit, takže hluboká přeskakovací cesta zůstává stabilní, zatímco funkce se stále mísí!
S n=4 přidává ~6,7 % trénovací doby, ale snižuje konečnou ztrátu o ~0,02 a v nejhorším případě zůstává zpětný zisk ~1,6 (oproti ~3000 bez omezení), přičemž jsou výsledky benchmarků konzistentní napříč všemi

Top
Hodnocení
Oblíbené
