9 NĂM ĐƯỜNG ĐI ĐẾN KẾT NỐI SIÊU SÂU CỦA DEEPSEEK Chúc mừng năm mới! Tôi đã dành hai ngày qua để tìm hiểu sâu về nguồn gốc của tài liệu DeepSeek về Kết Nối Siêu Hạn Chế Manifold. Nó đến một cách bất ngờ, vì vậy tôi đã đào sâu vào những công trình cũ mà nó xây dựng dựa trên. -> Tất cả bắt đầu với ResNets vào năm 2016 (công thức x_{l+1} = x_l + F(x_l)). He và các cộng sự đã chỉ ra rằng thuật ngữ đồng nhất đi qua mà không bị thay đổi là điều làm cho các mạng sâu có thể huấn luyện được. -> DenseNet và FractalNet (2016-17) đã cố gắng kết nối mọi lớp với mọi lớp khác. Hoạt động tốt hơn nhưng các kết nối thì cố định, vì vậy không có gì được học bởi mạng. -> DenseFormer năm ngoái đã làm cho trọng số trung bình có thể học được. Bạn nhận được một tổ hợp có trọng số của tất cả các đầu ra của lớp trước đó (nhưng vẫn chỉ là một luồng dư). -> Kết Nối Siêu từ tháng 9 năm 2024 đã đi theo một hướng khác. Thay vì nhiều kết nối hơn, họ làm cho luồng rộng hơn. Mở rộng từ C đến n×C chiều, thêm các ma trận trộn có thể học giữa n luồng. -> Đây là lúc nó trở nên thú vị! Khi bạn xếp chồng các lớp, những ma trận trộn đó nhân với nhau. Nếu chúng không bị ràng buộc, sản phẩm có thể tăng vọt. DeepSeek đã tìm thấy độ lợi lên tới khoảng 3000x trong các mô hình 27B của họ. Toàn bộ ý nghĩa của ánh xạ đồng nhất đã biến mất. mHC khắc phục điều này bằng cách ràng buộc các ma trận trộn phải là doubly stochastic thông qua các phép lặp Sinkhorn-Knopp. Những ma trận này có chuẩn phổ <= 1 và vẫn giữ nguyên tính doubly stochastic khi nhân với nhau. Độ lợi giảm xuống còn ~1.6x. Có một mối liên hệ thú vị với tài liệu Sinkformers từ năm 2021, áp dụng Sinkhorn cho các ma trận chú ý. mHC làm điều tương tự nhưng cho các kết nối dư! Kết quả cuối cùng = huấn luyện ổn định, vượt qua cả cơ sở và HC không ổn định, 6.7% chi phí thêm sau khi tối ưu hóa hệ thống!!! Kết nối dư đã gần như không thay đổi kể từ năm 2016. Đây có thể là khởi đầu của một điều lớn lao, LFG.