A exploração de fronteira das arquiteturas LLM convergiu em grande parte. Eu examinei o código dos transformers da HuggingFace para o recém-lançado GLM-5 da @Zai_org (zai-org/GLM-5). Aqui está uma análise arquitetônica detalhada e o que isso nos diz sobre a direção do design de LLM. TL;DR: Arquitetonicamente, o GLM-5 segue de perto o DeepSeek-V3 com pequenos ajustes. ATENÇÃO: MLA substitui GQA A maior mudança do GLM-4.7 para o GLM-5 é a atenção. O GLM-4.7 usava a Atenção de Consulta Agrupada (GQA) padrão com 96 cabeças Q, 8 cabeças KV, projeções q/k/v separadas. O GLM-5 descarta tudo isso e adota a Atenção Latente Multi-cabeça (MLA) do DeepSeek. No pipeline MLA, as consultas passam por uma projeção em duas etapas estilo LoRA: hidden -> q_a_proj para rank 2048 -> RMSNorm -> q_b_proj para 64 cabeças * 256 dim. As chaves e valores são comprimidos em um único gargalo de baixa classificação: hidden -> kv_a_proj para rank 512+64 -> dividido em um caminho KV latente e um caminho RoPE. A parte latente é expandida novamente via kv_b_proj em 64 cabeças de (192 nope + 256 valor) dims. Este é o mesmo design MLA do DeepSeek-V3. O GLM-5 apenas ajusta as dimensões: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. O kv_lora_rank (512) e qk_rope_head_dim (64) são idênticos. Além disso, sem viés em nenhum lugar na atenção (attention_bias padrão é False). Cada projeção (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, e todas as projeções do indexador DSA) é livre de viés. Esta é agora a prática padrão; entre os principais modelos lançados em 2025, apenas o GPT-oss ainda usa viés de atenção. ...