Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I samarbeid med @AMD og @IBM deler vi @ZyphraAI ZAYA1-base! Den første storskalamodellen på en integrert AMD-maskinvare, programvare og nettverksstakk. ZAYA1 bruker Zyphras nye MoE-arkitektur med 760 millioner aktive og totalt 8,3 milliarder parametere.
Teknisk artikkel og mer nedenfor👇

PR:
Teknisk blogg:
Teknisk artikkel:
Klemmeansikt:
Arkitektonisk følger ZAYA1 vår "MoE++"-oppskrift:
- Komprimert konvolusjonell oppmerksomhet (CCA) []
- Ny ZAYA1-ruter
- Per-lag residual skalering med lærte porter
Disse gir bedre skaleringskurver (per FLOP og per parameter) enn standard MoE.

ZAYA1-ruteren erstatter tradisjonelle lineære rutere med:
- Nedprosjektering av residualstrøm
- Anvender Exponential Depth Averaging (EDA) for å blande informasjon på tvers av lag
- 3-lags MLP per ekspert
- Bruker et balanseringssystem inspirert av kontrollteori for å holde eksperter både opptatt og spesialiserte
Treningsoppskrift:
- 14T tokens totalt
- 3 faser: netttung fortrening → matte/kode/strukturert-tung fase → langkontekst + resonnement midt i toget
- Læreplanskifter mot tett STEM + resonnementsdata over tid
- Kontekstutvidelse fra 4k → 32k via kontekst-parallell CCA

Klyngen vår, som @IBMcloud hoster, består av 128 beregningsnoder, hver beholdende:
- 8 MI300X-GPUer koblet sammen med InfinityFabric
- 8 Pollara 400Gbps inter-node-forbindelser
- 2 Intel Xeon Platinum 8570 CPU-er
Nodene er koblet sammen i en to-nivås topologi med kun skinner.

Vi gjennomførte samdesign for å redusere opplæringstiden:
- Kjerner for RMSNorm + Muons Newton-Schulz-iterasjon
- Aegis, vårt automatiserte feiltoleransesystem for å sikre høy oppetid
- Distribuert sjekkpunkt og omforming
- Nye parallellismeskjemaer for CP og distribuert Muon

ZAYA1-base presterer sterkt sammenlignet med lignende modeller, noe som gjør det til en solid grunnmodell for vår videre ettertrening.

Til tross for kun 760M aktive parametere, overgår ZAYA1-base tette modeller som Llama-3-8B og er konkurransedyktig med Qwen3-4B og Gemma3-12B på matematikk og kodingsbenchmarks. I høye pass@k nærmer basismodellen seg ytelsen til spesialiserte resonnementsmodeller.

42,48K
Topp
Rangering
Favoritter

