Tvrdit, že Deepseek postavil MoE na Mixtralu, je nesmysl, článek Deepseek Moe vyšel jen 3 dny poté, co byl Mixtral článek zveřejněn na Arxiv
Také článek Mixtral nemá doslova žádné detaily o trénování, takže "vydali jsme skoro všechno, co bylo potřeba k přestavbě tohoto typu architektury" je také nepravda, článek jen říká "používáme Google GSHARD Arch s jednodušším směrováním a MOE každou vrstvu" a žádné detaily o datech, hyperparametrech, trénovacích tokenech, ablacích atd.
Architektura, kterou Deepseek Moe používá, je vlastně jiná než GSHARD a je strohější (Deepseek Moe v článku ani necituje Mixtral, ale GSHARD)
Neříkám, že Mixtral neměl na MoE vliv, ale to, co je řečeno v tomto rozhovoru, je trochu přepisování příběhu a říká "ale podívejte, Čína/Deepseek také kopíruje Mistral!"
Tým GLM nyní používá MLA!! tohle je docela šílený model s 30B celkovým parametrem a asi 4B aktivní. Velmi pěkné uvolnění
Co se týče konstrukce, je to přibližně stejné hloubky jako glm4.5 air a qwen3 30B A3B, celkem 64 expert místo 128, ale aktivují jen 5 místo 9, pokud počítáme sdílený expert
Představujeme GLM-4.7-Flash: Vašeho místního asistenta pro kódování a agenta.
GLM-4.7-Flash stanovuje nový standard pro třídu 30B, vyvažuje vysoký výkon s efektivitou, což z něj činí ideální lehkou možnost nasazení. Kromě programování je také doporučován pro tvůrčí psaní, překlady, úkoly s dlouhým kontextem a hraní rolí.
Váhy:
API:
- GLM-4.7-Flash: Zdarma (1 souběžnost)
- GLM-4.7-FlashX: Vysokorychlostní a cenově dostupný