Báo cáo ấn tượng từ đội Kimi: Residual Attention Các kết nối residual đã làm cho Transformers sâu trở nên có thể huấn luyện được. Nhưng chúng cũng buộc sự phát triển trạng thái ẩn không kiểm soát theo chiều sâu. Công trình này đề xuất một giải pháp thay thế sạch hơn. Nó giới thiệu Residual Attention, thay thế việc tích lũy residual cố định bằng attention softmax trên các đầu ra của lớp trước. Thay vì mù quáng cộng tất cả mọi thứ, mỗi lớp chọn lọc lấy các biểu diễn trước đó mà nó thực sự cần. Để giữ cho điều này thực tiễn ở quy mô lớn, họ thêm một phiên bản theo khối mà nén các lớp thành các tóm tắt khối, phục hồi hầu hết các lợi ích với chi phí hệ thống tối thiểu. Tại sao điều này lại quan trọng? Các đường dẫn residual hầu như không thay đổi qua các LLM hiện đại, mặc dù chúng điều khiển cách thông tin di chuyển qua chiều sâu. Bài báo này cho thấy rằng việc làm cho nội dung trộn lẫn phụ thuộc vào nội dung cải thiện các quy luật mở rộng, khớp với một cơ sở đào tạo với 1.25x tính toán nhiều hơn, tăng GPQA-Diamond lên +7.5 và HumanEval lên +3.1, trong khi giữ chi phí suy diễn dưới 2%. Bài báo: Hãy học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi: