L'esplorazione delle architetture LLM ha in gran parte convergente. Ho esaminato il codice dei trasformatori di HuggingFace per il nuovo GLM-5 rilasciato da @Zai_org (zai-org/GLM-5). Ecco un'analisi architettonica dettagliata e cosa ci dice su dove sta andando il design degli LLM. TL;DR: Architettonicamente, GLM-5 segue da vicino DeepSeek-V3 con piccole regolazioni. ATTENZIONE: MLA sostituisce GQA Il cambiamento più grande da GLM-4.7 a GLM-5 è l'attenzione. GLM-4.7 utilizzava l'attenzione standard Grouped Query Attention (GQA) con 96 teste Q, 8 teste KV, proiezioni q/k/v separate. GLM-5 elimina tutto ciò e adotta l'attenzione latente multi-testa (MLA) di DeepSeek. Nella pipeline MLA, le query passano attraverso una proiezione a due stadi in stile LoRA: hidden -> q_a_proj per rango 2048 -> RMSNorm -> q_b_proj per 64 teste * 256 dim. Le chiavi e i valori sono compressi insieme in un unico collo di bottiglia a basso rango: hidden -> kv_a_proj per rango 512+64 -> diviso in un percorso KV latente e un percorso RoPE. La parte latente viene espansa di nuovo tramite kv_b_proj in 64 teste di (192 nope + 256 valore) dim. Questo è esattamente lo stesso design MLA di DeepSeek-V3. GLM-5 semplicemente regola le dimensioni: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. Il kv_lora_rank (512) e il qk_rope_head_dim (64) sono identici. Inoltre, nessun bias ovunque nell'attenzione (attention_bias predefinito su False). Ogni proiezione (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj e tutte le proiezioni dell'indicizzatore DSA) è priva di bias. Questa è ora prassi standard; tra i principali modelli rilasciati nel 2025, solo GPT-oss utilizza ancora il bias di attenzione. ...