Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
9-РІЧНИЙ ШЛЯХ ДО ГІПЕРЗВ'ЯЗКІВ DEEPSEEK
З Новим роком! Останні два дні я провів у глибокій кролячій норі щодо походження статті DeepSeek про обмежені гіперзв'язки з обмеженням у Манифолді. Це з'явилося несподівано, тож я почав вивчати старі роботи, на яких він будується.
-> Все починається з ResNets у 2016 році (формулювання x_{l+1} = x_l + F(x_l)). Він та ін. показали, що ідентичний термін, що проходить крізь незмінений, робить глибокі мережі взагалі навчаними.
-> DenseNet і FractalNet (2016-17) спробували з'єднати кожен шар з усіма іншими. Працювало краще, але з'єднання було виправлено, тож мережа нічого не засвоїла
-> DenseFormer минулого року зробив середні ваги зрозумілими. Ви отримуєте зважену комбінацію всіх попередніх виходів шарів (але все одно лише один залишковий потік).
-> Hyper-Connections з вересня 2024 року пішли в іншому напрямку. Замість нових з'єднань вони роблять потік ширшим. Розширте розміри C до n×C, додайте матриці змішування, які можна навчитися, між n потоками
-> Ось де починається цікаво! Коли ви накладаєте шари, ці матриці змішування множаться разом. Якщо вони не обмежені, продукт може вибухнути. DeepSeek виявила магнітуди підсилення близько 3000x у своїх моделях 27B. Весь сенс ідентичного відображення зник.
mHC виправляє це, обмежуючи матриці змішування подвійно стохастичними через ітерації Сінкгорна-Кноппа. Ці матриці мають спектральну норму <= 1 і залишаються подвійно стохастичними при множенні разом. Підсилення падає до ~1,6x.
Є гарний зв'язок із статтею Sinkformers 2021 року, яка застосовувала Сінгорна до матриць уваги. mHC робить те саме, але для залишкових підключень!
Кінцевий результат = стабільне навчання, перевершує як базовий, так і нестабільний HC, 6,7% накладних витрат після оптимізації системи!!
Залишковий зв'язок практично не торкався з 2016 року. Це може бути початком чогось великого LFG

Найкращі
Рейтинг
Вибране
