Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek vừa phát hành một tài liệu ấn tượng để kết thúc năm 2025
"mHC: Kết Nối Siêu Hạn Chế Đa Dạng"
Kết Nối Siêu biến đổi "đường cao tốc" đơn lẻ trong các mô hình transformer thành n làn song song, và mỗi lớp học cách xáo trộn và chia sẻ tín hiệu giữa các làn.
Nhưng nếu mỗi lớp có thể khuếch đại hoặc thu nhỏ các làn một cách tùy ý, thì sản phẩm của những lần xáo trộn đó qua chiều sâu sẽ làm cho tín hiệu/độ dốc tăng vọt hoặc mờ nhạt.
Vì vậy, họ buộc mỗi lần xáo trộn phải bảo toàn khối lượng: một ma trận ngẫu nhiên đôi (không âm, mỗi hàng/cột tổng bằng 1). Mỗi lớp chỉ có thể phân phối lại tín hiệu giữa các làn, không thể tạo ra hoặc phá hủy nó, vì vậy đường đi bỏ qua sâu vẫn ổn định trong khi các đặc trưng vẫn được trộn lẫn!
với n=4, nó thêm ~6.7% thời gian huấn luyện, nhưng giảm thiểu tổn thất cuối cùng khoảng ~0.02, và giữ cho lợi ích ngược tồi tệ nhất khoảng ~1.6 (so với ~3000 mà không có ràng buộc), với những chiến thắng nhất quán trong các bài kiểm tra trên toàn bộ.

Hàng đầu
Thứ hạng
Yêu thích
