Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
In collaborazione con @AMD e @IBM, noi @ZyphraAI stiamo condividendo ZAYA1-base! Il primo modello su larga scala su un'infrastruttura integrata di hardware, software e networking AMD. ZAYA1 utilizza l'innovativa architettura MoE di Zyphra con 760M di parametri attivi e 8.3B di parametri totali.
Documento tecnico e altro qui sotto👇

PR:
Blog Tecnico:
Documento Tecnico:
Hugging Face:
Architettonicamente, ZAYA1 segue la nostra ricetta "MoE++":
- Attenzione Convoluzionale Compressa (CCA) []
- Nuovo router ZAYA1
- Scaling residuo per strato con porte apprese
Questi offrono curve di scaling migliori (per FLOP e per parametro) rispetto al MoE standard.

Il router ZAYA1 sostituisce i router lineari tradizionali con:
- Progetti discendenti del flusso residuo
- Applica la Media Profondità Esponenziale (EDA) per mescolare le informazioni tra i livelli
- MLP a 3 strati per esperto
- Utilizza uno schema di bilanciamento ispirato alla teoria del controllo per mantenere gli esperti sia occupati che specializzati
Ricetta di addestramento:
- 14T token totali
- 3 fasi: pre-addestramento pesante sul web → fase pesante su matematica/codice/struttura → addestramento intermedio su contesti lunghi + ragionamento
- Il curriculum si sposta nel tempo verso dati STEM densi + ragionamento
- Estensione del contesto da 4k → 32k tramite CCA parallelo al contesto

Il nostro cluster, ospitato da @IBMcloud, è composto da 128 nodi di calcolo, ciascuno contenente:
- 8 GPU MI300X interconnesse con InfinityFabric
- 8 interconnessioni inter-nodo Pollara 400Gbps
- 2 CPU Intel Xeon Platinum 8570
I nodi sono connessi in una topologia a due livelli solo con rotaie.

Abbiamo effettuato co-design per ridurre i tempi di addestramento:
- Kernels per RMSNorm + iterazione di Newton-Schulz di Muon
- Aegis, il nostro sistema automatizzato di tolleranza ai guasti per garantire un'elevata disponibilità
- Checkpointing distribuito e rimodellamento
- Nuovi schemi di parallelismo per CP e Muon distribuito

ZAYA1-base si comporta bene rispetto a modelli simili, rendendolo un modello di base solido per il nostro successivo post-addestramento.

Nonostante solo 760M di parametri attivi, ZAYA1-base supera modelli densi come Llama-3-8B ed è competitivo con Qwen3-4B e Gemma3-12B nei benchmark di matematica e programmazione. In impostazioni ad alta pass@k, il modello base si avvicina alle prestazioni di modelli di ragionamento specializzati.

42,48K
Principali
Ranking
Preferiti

