Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek щойно опублікував престижну статтю, щоб підсумувати 2025 рік
"mHC: Гіперзв'язки, обмежені колекторами"
Гіперз'єднання перетворюють єдину залишкову «шосе» в трансформаторах на n паралельних смуг, і кожен шар вчиться тасувати та ділитися сигналом між смугами.
Але якщо кожен шар може довільно підсилювати або зменшувати лінії, результат цих перетасувань по глибині змушує сигнали/градієнти вибухати або зникати.
Тому вони змушують кожне тасування зберігати масу: подвійно стохастична матриця (невід'ємна, кожен рядок/стовпець дорівнює 1). Кожен шар може лише перерозподіляти сигнал між лініями, а не створювати чи знищувати його, тому глибокий пропускний шлях залишається стабільним, поки функції все ще змішуються!
з n=4 це додає ~6,7% часу тренування, але скорочує фінальну втрату на ~0,02 і зберігає найгірший зворотний приріст ~1,6 (проти ~3000 без обмеження), з стабільними перемогами у еталонних показниках у всіх аспектах

Найкращі
Рейтинг
Вибране
