Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
thật điên rồ khi mà sự chú ý thưa thớt này lại hoạt động tốt như vậy, họ chỉ đang làm thưa 50% các lớp MLA trong LongCat-Flash base ở giữa quá trình huấn luyện và đạt được kết quả tương tự như mô hình gốc
bước hiệu chỉnh là chọn các lớp MLA nào họ sẽ làm thưa. LongCat-Flash có cấu trúc lớp "kỳ lạ" (không theo cách xấu) nơi có 2 lớp chú ý trong một lớp, không có đề cập đến việc điều trị khác cho 2 lớp đó nên tôi giả định họ đang áp dụng cùng một quy trình cho cả hai. Bước hiệu chỉnh là:
output = a_i · output_dense + (1 - a_i) · output_sparse
và họ thực hiện giảm độ dốc trên a_i (mỗi lớp chú ý). nếu a_i cao => lớp này cần phải dày đặc, nếu không bạn có thể làm thưa nó. theo cách này họ làm thưa 50% các lớp (chúng tôi không có phân phối của các lớp đã làm thưa thật không may). Bước hiệu chỉnh này có tác động điên rồ đến longeval
sự chú ý thưa thớt cũng rất đơn giản, nó cố định và không nhận thức ngữ cảnh như deepseek DSA/NSA hoặc MiniCPM InfiLLMv2, nó là một cửa sổ trượt với 8 khối 128 token (vì vậy kích thước cửa sổ là 1024), 128 token đầu tiên và 896 token cuối cùng
tò mò không biết các mô hình @Meituan_LongCat trong tương lai sẽ sử dụng điều này trong sản xuất và nếu nó có độ bền với RL!

Hàng đầu
Thứ hạng
Yêu thích
