Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Хаки не масштабуються. Математика — так.
DeepSeek це довела.
Вони випустили хіт на завершення 2025 року.
"mHC: Гіперзв'язки, обмежені в многообразі."
Ось чому це важливо:
Коли глибоке навчання набуло популярності, дослідники зіткнулися зі стіною. Не можна просто безкінечно складати шари; Сигнали або вибухають, або зникають. Навчання глибоких мереж було майже неможливим.
ResNets вирішила це питання у 2016 році за допомогою залишкових підключень:
вихід = вхід + те, що навчився шар
Цей «+» створює прямий шлях для отримання інформації. Ось чому ми тепер можемо навчати мережі з сотнями шарів.
Нещодавно дослідники запитали: А що, якби у нас було кілька шосе замість одного?
Hyper-Connections (HC) розширив цю односмугу до 4 паралельних смуг із навчальними матрицями, які змішують інформацію між потоками.
Зростання продуктивності було реальним. Але була проблема:
Ці змішувальні матриці складаються на шарах. Крихітне 5% підсилення на шар стає 18x після 60 шарів. У статті вимірювали ампліфікацію до 3000x, що призвело до колапсів тренувань.
Звичайні рішення: градієнтне обрізання, обережна ініціалізація і сподівання, що все вийде.
DeepSeek повернувся до перших принципів: яке математичне обмеження гарантує стабільність?
Відповідь ховалася в алгоритмі, якому 59 років (Сінкгорн-Кнопп, 1967)
Це змушує змішування матриці бути подвійно стохастичними, тобто рядки та стовпці дорівнюють 1.
Результати:
- 3000x нестабільність → 1,6x
- Стабільність, гарантована математикою, а не удачою
- Лише 6,7% додаткових навчальних витрат
Жодних хитрощів. Просто математика.
Якщо хочете прочитати більше, я поділився посиланням на статтю в наступному твіті.

папір:
189
Найкращі
Рейтинг
Вибране
