DeepSeek vừa khắc phục một trong những vấn đề lâu đời nhất của AI. (sử dụng một thuật toán 60 năm tuổi) Đây là câu chuyện: Khi học sâu bùng nổ, các nhà nghiên cứu đã gặp phải một bức tường. Bạn không thể chỉ xếp chồng các lớp một cách vô hạn. Tín hiệu hoặc là bùng nổ hoặc là biến mất. Việc đào tạo các mạng sâu gần như là không thể. ResNets đã giải quyết vấn đề này vào năm 2016 với các kết nối dư: đầu ra = đầu vào + những gì lớp đã học Cái "+" đó tạo ra một con đường trực tiếp cho thông tin. Đây là lý do tại sao chúng ta có thể đào tạo các mạng với hàng trăm lớp. Gần đây, các nhà nghiên cứu đã đặt câu hỏi: điều gì sẽ xảy ra nếu chúng ta có nhiều con đường thay vì chỉ một? Hyper-Connections (HC) đã mở rộng làn đường đơn đó thành 4 làn đường song song với các ma trận có thể học được để trộn thông tin giữa các dòng. Các cải tiến về hiệu suất là có thật. Nhưng có một vấn đề: Các ma trận trộn đó tích lũy qua các lớp. Một sự khuếch đại nhỏ 5% mỗi lớp trở thành 18x sau 60 lớp. Bài báo đã đo được sự khuếch đại lên tới 3000x. Việc đào tạo sụp đổ. Các cách khắc phục thông thường? Cắt gradient. Khởi tạo cẩn thận. Hy vọng mọi thứ sẽ ổn. Đây là những giải pháp tạm thời. Và các giải pháp tạm thời không thể mở rộng. DeepSeek đã quay lại với các nguyên tắc cơ bản. Ràng buộc toán học nào sẽ đảm bảo tính ổn định? Câu trả lời nằm trong một bài báo năm 1967: thuật toán Sinkhorn-Knopp. Nó buộc các ma trận trộn phải "được xác suất đôi", nơi các hàng và cột đều tổng bằng 1. Kết quả: - 3000x không ổn định giảm xuống còn 1.6x - Tính ổn định được đảm bảo bởi toán học, không phải may mắn - Chỉ 6.7% chi phí đào tạo bổ sung Không có giải pháp tạm thời. Chỉ có toán học. Tôi đã chia sẻ liên kết đến bài báo trong tweet tiếp theo.
giấy:
309