In collaborazione con @AMD e @IBM, noi @ZyphraAI stiamo condividendo ZAYA1-base! Il primo modello su larga scala su un'infrastruttura integrata di hardware, software e networking AMD. ZAYA1 utilizza l'innovativa architettura MoE di Zyphra con 760M di parametri attivi e 8.3B di parametri totali. Documento tecnico e altro qui sotto👇
PR: Blog Tecnico: Documento Tecnico: Hugging Face:
Architettonicamente, ZAYA1 segue la nostra ricetta "MoE++": - Attenzione Convoluzionale Compressa (CCA) [] - Nuovo router ZAYA1 - Scaling residuo per strato con porte apprese Questi offrono curve di scaling migliori (per FLOP e per parametro) rispetto al MoE standard.
Il router ZAYA1 sostituisce i router lineari tradizionali con: - Progetti discendenti del flusso residuo - Applica la Media Profondità Esponenziale (EDA) per mescolare le informazioni tra i livelli - MLP a 3 strati per esperto - Utilizza uno schema di bilanciamento ispirato alla teoria del controllo per mantenere gli esperti sia occupati che specializzati
Ricetta di addestramento: - 14T token totali - 3 fasi: pre-addestramento pesante sul web → fase pesante su matematica/codice/struttura → addestramento intermedio su contesti lunghi + ragionamento - Il curriculum si sposta nel tempo verso dati STEM densi + ragionamento - Estensione del contesto da 4k → 32k tramite CCA parallelo al contesto
Il nostro cluster, ospitato da @IBMcloud, è composto da 128 nodi di calcolo, ciascuno contenente: - 8 GPU MI300X interconnesse con InfinityFabric - 8 interconnessioni inter-nodo Pollara 400Gbps - 2 CPU Intel Xeon Platinum 8570 I nodi sono connessi in una topologia a due livelli solo con rotaie.
Abbiamo effettuato co-design per ridurre i tempi di addestramento: - Kernels per RMSNorm + iterazione di Newton-Schulz di Muon - Aegis, il nostro sistema automatizzato di tolleranza ai guasti per garantire un'elevata disponibilità - Checkpointing distribuito e rimodellamento - Nuovi schemi di parallelismo per CP e Muon distribuito
ZAYA1-base si comporta bene rispetto a modelli simili, rendendolo un modello di base solido per il nostro successivo post-addestramento.
Nonostante solo 760M di parametri attivi, ZAYA1-base supera modelli densi come Llama-3-8B ed è competitivo con Qwen3-4B e Gemma3-12B nei benchmark di matematica e programmazione. In impostazioni ad alta pass@k, il modello base si avvicina alle prestazioni di modelli di ragionamento specializzati.
42,48K