🚀 Gặp gỡ HySparse: Đột phá mới của chúng tôi trong hiệu suất LLM với ngữ cảnh dài! Chúng tôi rất vui mừng chia sẻ HySparse (Hybrid Sparse Attention)—một kiến trúc mô hình lai kết hợp mỗi lớp attention đầy đủ với nhiều lớp attention thưa, trong đó các lớp thưa chiến lược rút ra lựa chọn token quan trọng và bộ nhớ KV từ lớp đầy đủ trước đó! 📖 Liên kết tài liệu: