dire che deepseek ha costruito moe sopra mixtral è una sciocchezza, il documento di deepseek moe è uscito solo 3 giorni dopo che il documento di mixtral è stato pubblicato su arxiv
inoltre, il documento di mixtral non ha letteralmente alcun dettaglio sul training, quindi "abbiamo rilasciato tutto ciò che era necessario per ricostruire questo tipo di architettura" è anche falso, il documento dice solo "utilizziamo l'architettura google gshard con routing più semplice e moe in ogni layer" e nessun dettaglio su dati, iperparametri, token di training, ablation ecc..
l'architettura che deepseek moe utilizza è in realtà diversa da gshard e più sparsa (deepseek moe non cita nemmeno mixtral nel documento, ma gshard)
non dico che mixtral non abbia avuto un impatto su moe, ma ciò che viene detto in questa intervista è un po' una riscrittura della narrativa per dire "ma guarda, china/deepseek sta copiando anche mistral!"
Il team di GLM sta ora utilizzando MLA!! Questo è un modello piuttosto pazzesco con 30 miliardi di parametri totali e circa 4 miliardi attivi. Ottima release
In termini di struttura, ha approssimativamente la stessa profondità di glm4.5 air e qwen3 30B A3B, 64 esperti totali invece di 128, ma attivano solo 5 invece di 9 se si conta l'esperto condiviso.
Presentiamo GLM-4.7-Flash: il tuo assistente locale per la programmazione e l'agente.
Stabilendo un nuovo standard per la classe 30B, GLM-4.7-Flash bilancia alte prestazioni con efficienza, rendendolo l'opzione di distribuzione leggera perfetta. Oltre alla programmazione, è anche raccomandato per la scrittura creativa, la traduzione, compiti a lungo termine e giochi di ruolo.
Pesi:
API:
- GLM-4.7-Flash: Gratuito (1 concorrenza)
- GLM-4.7-FlashX: Alta velocità e conveniente