Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
Il team di GLM sta ora utilizzando MLA!! Questo è un modello piuttosto pazzesco con 30 miliardi di parametri totali e circa 4 miliardi attivi. Ottima release
In termini di struttura, ha approssimativamente la stessa profondità di glm4.5 air e qwen3 30B A3B, 64 esperti totali invece di 128, ma attivano solo 5 invece di 9 se si conta l'esperto condiviso.


Z.ai19 gen, 22:44
Presentiamo GLM-4.7-Flash: il tuo assistente locale per la programmazione e l'agente.
Stabilendo un nuovo standard per la classe 30B, GLM-4.7-Flash bilancia alte prestazioni con efficienza, rendendolo l'opzione di distribuzione leggera perfetta. Oltre alla programmazione, è anche raccomandato per la scrittura creativa, la traduzione, compiti a lungo termine e giochi di ruolo.
Pesi:
API:
- GLM-4.7-Flash: Gratuito (1 concorrenza)
- GLM-4.7-FlashX: Alta velocità e conveniente

49
è piuttosto pazzesco che questa attenzione sparsa funzioni così bene, stanno semplicemente sparsificando il 50% degli strati MLA nel modello LongCat-Flash a metà addestramento e ottengono risultati simili a quelli del modello originale
la calibrazione seleziona quali strati MLA sparsificare. LongCat-Flash ha questa struttura di strati "strana" (non in senso negativo) in cui ci sono 2 strati di attenzione in uno strato, non c'è menzione di un trattamento diverso per quei 2 strati, quindi presumo stiano applicando lo stesso processo a entrambi. Il passo di calibrazione è:
output = a_i · output_dense + (1 - a_i) · output_sparse
e fanno discesa del gradiente su a_i (che è per strato di attenzione). se a_i è alto => questo strato deve essere denso, altrimenti puoi sparsificarlo. in questo modo sparsificano il 50% degli strati (purtroppo non abbiamo la distribuzione degli strati sparsificati). Questo passo di calibrazione ha un impatto pazzesco su longeval
l'attenzione sparsa è molto semplice, è fissa e non consapevole del contesto come deepseek DSA/NSA o MiniCPM InfiLLMv2, è una finestra scorrevole con 8 blocchi di 128 token (quindi dimensione della finestra 1024), i primi 128 token e gli ultimi 896 token
curioso se i futuri modelli @Meituan_LongCat utilizzeranno questo in produzione e se è robusto per RL!

162
Principali
Ranking
Preferiti

