Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'esplorazione delle architetture LLM ha in gran parte convergente.
Ho esaminato il codice dei trasformatori di HuggingFace per il nuovo GLM-5 rilasciato da @Zai_org (zai-org/GLM-5).
Ecco un'analisi architettonica dettagliata e cosa ci dice su dove sta andando il design degli LLM.
TL;DR: Architettonicamente, GLM-5 segue da vicino DeepSeek-V3 con piccole regolazioni.
ATTENZIONE: MLA sostituisce GQA
Il cambiamento più grande da GLM-4.7 a GLM-5 è l'attenzione.
GLM-4.7 utilizzava l'attenzione standard Grouped Query Attention (GQA) con 96 teste Q, 8 teste KV, proiezioni q/k/v separate.
GLM-5 elimina tutto ciò e adotta l'attenzione latente multi-testa (MLA) di DeepSeek.
Nella pipeline MLA, le query passano attraverso una proiezione a due stadi in stile LoRA:
hidden -> q_a_proj per rango 2048 -> RMSNorm -> q_b_proj per 64 teste * 256 dim.
Le chiavi e i valori sono compressi insieme in un unico collo di bottiglia a basso rango:
hidden -> kv_a_proj per rango 512+64 -> diviso in un percorso KV latente e un percorso RoPE.
La parte latente viene espansa di nuovo tramite kv_b_proj in 64 teste di (192 nope + 256 valore) dim.
Questo è esattamente lo stesso design MLA di DeepSeek-V3.
GLM-5 semplicemente regola le dimensioni: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
Il kv_lora_rank (512) e il qk_rope_head_dim (64) sono identici.
Inoltre, nessun bias ovunque nell'attenzione (attention_bias predefinito su False).
Ogni proiezione (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj e tutte le proiezioni dell'indicizzatore DSA) è priva di bias.
Questa è ora prassi standard; tra i principali modelli rilasciati nel 2025, solo GPT-oss utilizza ancora il bias di attenzione.
...
Principali
Ranking
Preferiti
