I samarbeid med @AMD og @IBM deler vi @ZyphraAI ZAYA1-base! Den første storskalamodellen på en integrert AMD-maskinvare, programvare og nettverksstakk. ZAYA1 bruker Zyphras nye MoE-arkitektur med 760 millioner aktive og totalt 8,3 milliarder parametere. Teknisk artikkel og mer nedenfor👇
PR: Teknisk blogg: Teknisk artikkel: Klemmeansikt:
Arkitektonisk følger ZAYA1 vår "MoE++"-oppskrift: - Komprimert konvolusjonell oppmerksomhet (CCA) [] - Ny ZAYA1-ruter - Per-lag residual skalering med lærte porter Disse gir bedre skaleringskurver (per FLOP og per parameter) enn standard MoE.
ZAYA1-ruteren erstatter tradisjonelle lineære rutere med: - Nedprosjektering av residualstrøm - Anvender Exponential Depth Averaging (EDA) for å blande informasjon på tvers av lag - 3-lags MLP per ekspert - Bruker et balanseringssystem inspirert av kontrollteori for å holde eksperter både opptatt og spesialiserte
Treningsoppskrift: - 14T tokens totalt - 3 faser: netttung fortrening → matte/kode/strukturert-tung fase → langkontekst + resonnement midt i toget - Læreplanskifter mot tett STEM + resonnementsdata over tid - Kontekstutvidelse fra 4k → 32k via kontekst-parallell CCA
Klyngen vår, som @IBMcloud hoster, består av 128 beregningsnoder, hver beholdende: - 8 MI300X-GPUer koblet sammen med InfinityFabric - 8 Pollara 400Gbps inter-node-forbindelser - 2 Intel Xeon Platinum 8570 CPU-er Nodene er koblet sammen i en to-nivås topologi med kun skinner.
Vi gjennomførte samdesign for å redusere opplæringstiden: - Kjerner for RMSNorm + Muons Newton-Schulz-iterasjon - Aegis, vårt automatiserte feiltoleransesystem for å sikre høy oppetid - Distribuert sjekkpunkt og omforming - Nye parallellismeskjemaer for CP og distribuert Muon
ZAYA1-base presterer sterkt sammenlignet med lignende modeller, noe som gjør det til en solid grunnmodell for vår videre ettertrening.
Til tross for kun 760M aktive parametere, overgår ZAYA1-base tette modeller som Llama-3-8B og er konkurransedyktig med Qwen3-4B og Gemma3-12B på matematikk og kodingsbenchmarks. I høye pass@k nærmer basismodellen seg ytelsen til spesialiserte resonnementsmodeller.
42,48K