المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لقد تقاربت إلى حد كبير الاستكشاف الحدودي لمعماريات نماذج اللغة الكبيرة.
بحثت في كود محولات HuggingFace لجهاز GLM-5 الجديد من @Zai_org (zai-org/GLM-5).
إليك تفصيلا معماريا مفصلا، وما يخبرنا به عن الاتجاه الذي يتجه فيه تصميم نماذج اللغة الكبيرة.
ملخص؛ DR: من الناحية المعمارية، يتبع GLM-5 عن كثب DeepSeek-V3 مع بعض التعديلات الطفيفة في الأزرار.
تنبيه: النائب يحل محل GQA
أكبر تغيير من GLM-4.7 إلى GLM-5 هو الانتباه.
استخدم GLM-4.7 الانتباه القياسي المجمع للاستعلام (GQA) مع 96 رأس Q، و8 KV، وتوقعات منفصلة للاستعلام والمراقبة (q/k/v).
GLM-5 يتخلى عن كل ذلك ويعتمد على الانتباه الكامن متعدد الرؤوس (MLA) من DeepSeek.
في خط أنابيب MLA، تمر الاستعلامات عبر إسقاط مرحلتي على غرار LoRA:
مخفي -> q_a_proj إلى الرتبة 2048 -> RMSNorm -> q_b_proj إلى 64 رأسا * 256 خافتا.
يتم ضغط المفاتيح والقيم معا في عنق زجاجة واحد منخفض الترتيب:
> kv_a_proj مخفية إلى الرتبة 512+64 -> مقسمة إلى مسار KV كامن ومسار RoPE.
الجزء الكامن يتوسع مرة أخرى عبر kv_b_proj إلى 64 رأسا من الديمات (192 لا + 256 قيمة ديم).
هذا هو نفس تصميم MLA تماما مثل DeepSeek-V3.
GLM-5 فقط يضبط الأبعاد: q_lora_rank 2048 مقابل 1536، v_head_dim 256 مقابل 128، qk_nope_head_dim 192 مقابل 128.
kv_lora_rank (512) و qk_rope_head_dim (64) متطابقان.
أيضا، لا يوجد تحيز في أي مكان في الانتباه (attention_bias يميل افتراضيا إلى خاطئ).
كل إسقاط (q_a_proj، q_b_proj، kv_a_proj، kv_b_proj، o_proj، وجميع إسقاطات مؤشر DSA) خال من التحيز.
هذا أصبح الآن ممارسة معتادة؛ من بين النماذج الرئيسية التي صدرت في 2025، لا يزال GPT-OSS فقط يستخدم انحياز الانتباه.
...
الأفضل
المُتصدِّرة
التطبيقات المفضلة
