Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A exploração de fronteira das arquiteturas LLM convergiu em grande parte.
Eu examinei o código dos transformers da HuggingFace para o recém-lançado GLM-5 da @Zai_org (zai-org/GLM-5).
Aqui está uma análise arquitetônica detalhada e o que isso nos diz sobre a direção do design de LLM.
TL;DR: Arquitetonicamente, o GLM-5 segue de perto o DeepSeek-V3 com pequenos ajustes.
ATENÇÃO: MLA substitui GQA
A maior mudança do GLM-4.7 para o GLM-5 é a atenção.
O GLM-4.7 usava a Atenção de Consulta Agrupada (GQA) padrão com 96 cabeças Q, 8 cabeças KV, projeções q/k/v separadas.
O GLM-5 descarta tudo isso e adota a Atenção Latente Multi-cabeça (MLA) do DeepSeek.
No pipeline MLA, as consultas passam por uma projeção em duas etapas estilo LoRA:
hidden -> q_a_proj para rank 2048 -> RMSNorm -> q_b_proj para 64 cabeças * 256 dim.
As chaves e valores são comprimidos em um único gargalo de baixa classificação:
hidden -> kv_a_proj para rank 512+64 -> dividido em um caminho KV latente e um caminho RoPE.
A parte latente é expandida novamente via kv_b_proj em 64 cabeças de (192 nope + 256 valor) dims.
Este é o mesmo design MLA do DeepSeek-V3.
O GLM-5 apenas ajusta as dimensões: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
O kv_lora_rank (512) e qk_rope_head_dim (64) são idênticos.
Além disso, sem viés em nenhum lugar na atenção (attention_bias padrão é False).
Cada projeção (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, e todas as projeções do indexador DSA) é livre de viés.
Esta é agora a prática padrão; entre os principais modelos lançados em 2025, apenas o GPT-oss ainda usa viés de atenção.
...
Top
Classificação
Favoritos
