Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Khám phá biên giới của các kiến trúc LLM đã phần lớn hội tụ.
Tôi đã đào sâu vào mã nguồn của HuggingFace transformers cho GLM-5 mới được phát hành của @Zai_org (zai-org/GLM-5).
Dưới đây là phân tích kiến trúc chi tiết, và những gì nó cho chúng ta biết về hướng đi của thiết kế LLM.
Tóm lại: Về mặt kiến trúc, GLM-5 theo sát DeepSeek-V3 với một số điều chỉnh nhỏ.
CHÚ Ý: MLA thay thế GQA
Thay đổi lớn nhất từ GLM-4.7 sang GLM-5 là attention.
GLM-4.7 sử dụng Attention theo nhóm tiêu chuẩn (GQA) với 96 đầu Q, 8 đầu KV, các phép chiếu q/k/v riêng biệt.
GLM-5 loại bỏ tất cả và áp dụng Attention Latent Đa đầu (MLA) của DeepSeek.
Trong quy trình MLA, các truy vấn đi qua một phép chiếu hai giai đoạn theo kiểu LoRA:
hidden -> q_a_proj để xếp hạng 2048 -> RMSNorm -> q_b_proj để 64 đầu * 256 dim.
Các khóa và giá trị được nén chung thành một nút thắt hạng thấp duy nhất:
hidden -> kv_a_proj để xếp hạng 512+64 -> chia thành một đường dẫn KV tiềm ẩn và một đường dẫn RoPE.
Phần tiềm ẩn được mở rộng trở lại qua kv_b_proj thành 64 đầu của (192 nope + 256 giá trị) dims.
Đây là thiết kế MLA chính xác giống như DeepSeek-V3.
GLM-5 chỉ điều chỉnh các kích thước: q_lora_rank 2048 so với 1536, v_head_dim 256 so với 128, qk_nope_head_dim 192 so với 128.
kv_lora_rank (512) và qk_rope_head_dim (64) là giống nhau.
Ngoài ra, không có độ thiên lệch nào trong attention (attention_bias mặc định là False).
Mỗi phép chiếu (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, và tất cả các phép chiếu chỉ mục DSA) đều không có độ thiên lệch.
Điều này hiện là thực tiễn tiêu chuẩn; trong số các mô hình lớn được phát hành vào năm 2025, chỉ có GPT-oss vẫn sử dụng độ thiên lệch attention.
...
Hàng đầu
Thứ hạng
Yêu thích
