لقد تقاربت إلى حد كبير الاستكشاف الحدودي لمعماريات نماذج اللغة الكبيرة. بحثت في كود محولات HuggingFace لجهاز GLM-5 الجديد من @Zai_org (zai-org/GLM-5). إليك تفصيلا معماريا مفصلا، وما يخبرنا به عن الاتجاه الذي يتجه فيه تصميم نماذج اللغة الكبيرة. ملخص؛ DR: من الناحية المعمارية، يتبع GLM-5 عن كثب DeepSeek-V3 مع بعض التعديلات الطفيفة في الأزرار. تنبيه: النائب يحل محل GQA أكبر تغيير من GLM-4.7 إلى GLM-5 هو الانتباه. استخدم GLM-4.7 الانتباه القياسي المجمع للاستعلام (GQA) مع 96 رأس Q، و8 KV، وتوقعات منفصلة للاستعلام والمراقبة (q/k/v). GLM-5 يتخلى عن كل ذلك ويعتمد على الانتباه الكامن متعدد الرؤوس (MLA) من DeepSeek. في خط أنابيب MLA، تمر الاستعلامات عبر إسقاط مرحلتي على غرار LoRA: مخفي -> q_a_proj إلى الرتبة 2048 -> RMSNorm -> q_b_proj إلى 64 رأسا * 256 خافتا. يتم ضغط المفاتيح والقيم معا في عنق زجاجة واحد منخفض الترتيب: > kv_a_proj مخفية إلى الرتبة 512+64 -> مقسمة إلى مسار KV كامن ومسار RoPE. الجزء الكامن يتوسع مرة أخرى عبر kv_b_proj إلى 64 رأسا من الديمات (192 لا + 256 قيمة ديم). هذا هو نفس تصميم MLA تماما مثل DeepSeek-V3. GLM-5 فقط يضبط الأبعاد: q_lora_rank 2048 مقابل 1536، v_head_dim 256 مقابل 128، qk_nope_head_dim 192 مقابل 128. kv_lora_rank (512) و qk_rope_head_dim (64) متطابقان. أيضا، لا يوجد تحيز في أي مكان في الانتباه (attention_bias يميل افتراضيا إلى خاطئ). كل إسقاط (q_a_proj، q_b_proj، kv_a_proj، kv_b_proj، o_proj، وجميع إسقاطات مؤشر DSA) خال من التحيز. هذا أصبح الآن ممارسة معتادة؛ من بين النماذج الرئيسية التي صدرت في 2025، لا يزال GPT-OSS فقط يستخدم انحياز الانتباه. ...