9-РІЧНИЙ ШЛЯХ ДО ГІПЕРЗВ'ЯЗКІВ DEEPSEEK З Новим роком! Останні два дні я провів у глибокій кролячій норі щодо походження статті DeepSeek про обмежені гіперзв'язки з обмеженням у Манифолді. Це з'явилося несподівано, тож я почав вивчати старі роботи, на яких він будується. -> Все починається з ResNets у 2016 році (формулювання x_{l+1} = x_l + F(x_l)). Він та ін. показали, що ідентичний термін, що проходить крізь незмінений, робить глибокі мережі взагалі навчаними. -> DenseNet і FractalNet (2016-17) спробували з'єднати кожен шар з усіма іншими. Працювало краще, але з'єднання було виправлено, тож мережа нічого не засвоїла -> DenseFormer минулого року зробив середні ваги зрозумілими. Ви отримуєте зважену комбінацію всіх попередніх виходів шарів (але все одно лише один залишковий потік). -> Hyper-Connections з вересня 2024 року пішли в іншому напрямку. Замість нових з'єднань вони роблять потік ширшим. Розширте розміри C до n×C, додайте матриці змішування, які можна навчитися, між n потоками -> Ось де починається цікаво! Коли ви накладаєте шари, ці матриці змішування множаться разом. Якщо вони не обмежені, продукт може вибухнути. DeepSeek виявила магнітуди підсилення близько 3000x у своїх моделях 27B. Весь сенс ідентичного відображення зник. mHC виправляє це, обмежуючи матриці змішування подвійно стохастичними через ітерації Сінкгорна-Кноппа. Ці матриці мають спектральну норму <= 1 і залишаються подвійно стохастичними при множенні разом. Підсилення падає до ~1,6x. Є гарний зв'язок із статтею Sinkformers 2021 року, яка застосовувала Сінгорна до матриць уваги. mHC робить те саме, але для залишкових підключень! Кінцевий результат = стабільне навчання, перевершує як базовий, так і нестабільний HC, 6,7% накладних витрат після оптимізації системи!! Залишковий зв'язок практично не торкався з 2016 року. Це може бути початком чогось великого LFG