Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tại sao mạng nơ-ron học ở rìa của hỗn loạn
Khi bạn huấn luyện một mạng nơ-ron, các cập nhật tham số không phân phối bình thường. Chúng có đuôi nặng—những cú nhảy lớn hiếm hoi xen kẽ với nhiều điều chỉnh nhỏ. Mô hình này xuất hiện trên các MLP, CNN và Transformers, trên MNIST và CIFAR-10, trong giai đoạn học nhanh ban đầu và hội tụ muộn. Nó đáng ngờ là phổ quát.
Xin-Ya Zhang và Chao Tang lập luận rằng đây không phải là một đặc điểm của phương pháp gradient ngẫu nhiên hay tiếng ồn mini-batch. Đây là một dấu hiệu của tính tự tổ chức quan trọng, phát sinh từ một sự đánh đổi cơ bản: nguyên tắc tối đa hóa entropy thúc đẩy mạng khám phá tự do, trong khi một ràng buộc thông tin tương hỗ buộc các cập nhật phải giữ liên quan đến nhiệm vụ. Cân bằng hai lực này, và bạn sẽ có thống kê theo quy luật sức mạnh—hành vi tỷ lệ tương tự như thấy trong động đất, các trận lở tuyết thần kinh, và thị trường tài chính.
Bằng chứng là thuyết phục. Chỉ số quy luật sức mạnh vẫn ổn định đáng kể trong suốt quá trình huấn luyện, ngay cả khi tổn thất giảm theo cấp số nhân. Cảnh quan tổn thất tự nó cho thấy cấu trúc đa quy mô: độ mịn theo cấp số mũ dưới các nhiễu nhỏ (các lưu vực phẳng cục bộ), chuyển sang độ gồ ghề theo quy luật sức mạnh ở các quy mô lớn hơn. Ngay cả thời gian của các cập nhật lớn cũng tuân theo thống kê đuôi nặng—các sự kiện học lớn tập trung lại với nhau thay vì xảy ra ngẫu nhiên, với các chỉ số xung quanh 2.5–2.7.
Điều làm cho điều này thỏa mãn về mặt khái niệm là sự suy diễn lý thuyết từ các nguyên lý đầu tiên. Bắt đầu từ việc tối đa hóa entropy dưới một ràng buộc thông tin, và sử dụng một công thức tích đường của độ phân kỳ KL qua không gian tham số, các tác giả phục hồi chính xác hành vi tỷ lệ quan sát được. Không cần tinh chỉnh, không giả định tùy tiện.
Các hệ quả rất sâu sắc: việc học của mạng nơ-ron không chỉ là tối ưu hóa—đó là một quá trình vật lý không cân bằng được điều khiển bởi cùng các nguyên tắc thống kê hình thành các hệ thống phức tạp trong tự nhiên. Hiểu điều này có thể hướng dẫn thiết kế các thuật toán học hiệu quả hơn và giải thích tại sao SGD tổng quát tốt hơn so với các phương pháp thích ứng mà hạn chế các cập nhật khám phá lớn.
Bài báo:

Hàng đầu
Thứ hạng
Yêu thích
