Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek только что выпустил крутую статью, чтобы подвести итоги 2025 года
"mHC: Многообразно-ограниченные гипер-соединения"
Гипер-соединения превращают единственную остаточную "автостраду" в трансформерах в n параллельных полос, и каждый слой учится перемещать и делиться сигналом между полосами.
Но если каждый слой может произвольно усиливать или уменьшать полосы, то произведение этих перемещений по глубине заставляет сигналы/градиенты взрываться или исчезать.
Поэтому они заставляют каждое перемещение сохранять массу: двойная стохастическая матрица (неотрицательная, сумма каждой строки/столбца равна 1). Каждый слой может только перераспределять сигнал между полосами, не создавая и не уничтожая его, так что глубокий пропускной путь остается стабильным, в то время как признаки все еще смешиваются!
при n=4 это добавляет ~6.7% времени на обучение, но снижает окончательную потерю на ~0.02 и сохраняет наихудший обратный прирост ~1.6 (по сравнению с ~3000 без ограничения), с последовательными победами на бенчмарках по всем направлениям.

Топ
Рейтинг
Избранное
