我們與 @AMD 和 @IBM 合作,@ZyphraAI 正在分享 ZAYA1-base!這是第一個在整合的 AMD 硬體、軟體和網路堆疊上運行的大型模型。ZAYA1 使用 Zyphra 的新型 MoE 架構,擁有 760M 的活躍參數和 8.3B 的總參數。 技術論文及更多內容如下👇
PR: 技術部落格: 技術論文: Hugging Face:
在架構上,ZAYA1 遵循我們的 "MoE++" 配方: - 壓縮卷積注意力 (CCA) [] - 新的 ZAYA1 路由器 - 每層的殘差縮放與學習閘 這些在標準 MoE 之上提供了更好的縮放曲線(每 FLOP 和每參數)。
ZAYA1 路由器用以下方式取代傳統的線性路由器: - 向下投影殘差流 - 應用指數深度平均 (EDA) 來混合各層的資訊 - 每個專家使用 3 層 MLP - 使用受控制理論啟發的平衡方案,保持專家既忙碌又專業
訓練配方: - 總共 14T 代幣 - 3 個階段:以網頁為重的預訓練 → 數學/程式碼/結構為重的階段 → 長上下文 + 推理的中期訓練 - 課程隨著時間推移轉向密集的 STEM + 推理數據 - 上下文擴展從 4k → 32k,通過上下文平行 CCA
我們的叢集由 @IBMcloud 托管,包含 128 個計算節點,每個節點包含: - 8 個 MI300X GPU,通過 InfinityFabric 互連 - 8 個 Pollara 400Gbps 節點間互連 - 2 個 Intel Xeon Platinum 8570 CPU 節點以雙層軌道拓撲連接。
我們進行了共同設計以縮短訓練時間: - RMSNorm 的核心 + Muon 的牛頓-舒爾茨迭代 - Aegis,我們的自動容錯系統以確保高正常運行時間 - 分佈式檢查點和重塑 - CP 和分佈式 Muon 的新型並行方案
ZAYA1-base 相較於類似模型表現強勁,成為我們後續後訓練的堅實基礎模型。
儘管只有760M的活躍參數,ZAYA1-base在數學和編碼基準上超越了像Llama-3-8B這樣的密集模型,並且在與Qwen3-4B和Gemma3-12B的競爭中表現出色。在高pass@k設置中,基礎模型的性能接近專門推理模型。
42.48K