@AMDと@IBMと協力し、@ZyphraAI ZAYA1ベースを共有しています!統合されたAMDハードウェア、ソフトウェア、ネットワークスタック上の最初の大規模モデルです。ZAYA1はZyphraの革新的なMoEアーキテクチャを採用しており、アクティブパラメータ数は7億6千万、総パラメータ数は83億です。 技術論文などは以下に👇掲載します
PR: 技術ブログ: 技術論文: ハグフェイス:
アーキテクチャ的には、ZAYA1は私たちの「MoE++」のレシピに従っています: - 圧縮畳み込み注意(CCA) [] - 新しいZAYA1ルータ - 学習ゲートを用いた層ごとの残差スケーリング これらは標準的なMoEよりも(FLOPごとおよびパラメータごと)より良いスケーリング曲線を提供します。
ZAYA1ルーターは従来のリニアルーターを以下に置き換えます: - ダウンプロジェクション残留ストリーム - 層間情報を混在させるために指数深度平均(EDA)を適用 - エキスピカル1人あたりの3層MLP - 制御理論に着想を得たバランススキームを用いて、専門家を忙しくかつ専門的に保つ
トレーニングレシピ: - 合計14Tトークン - 3フェーズ:ウェブ重視のプレトレイン →数学/コード/構造化重視フェーズ →長いコンテキスト+推論の中間段階 - カリキュラムが時間とともに密度の高いSTEM+推論データへとシフトする - 4k→32kへのコンテキスト拡張(コンテキスト並列CCA経由)
@IBMcloudがホストする私たちのクラスターは、128の計算ノードで構成されており、それぞれに以下が含まれます: - 8つのMI300X GPUがInfinityFabricと相互接続されています - 8 Pollara 400Gbps インターノード間接続 - 2 Intel Xeon Platinum 8570 CPU ノードは2層レールのみのトポロジーで接続されています。
私たちはトレーニング時間を短縮するための共同設計を行いました: - RMSNorm + Muonのニュートン・シュルツ反復のカーネル - Aegis:高い稼働時間を保証する自動フォールトトレランスシステム - 分散チェックポイントとリシェイピング - CPおよび分散ミューオンのための新しい並列方式
ZAYA1-baseは類似モデルと比べて優れた性能を示し、後のポストトレーニングの強力な基盤モデルとなっています。
アクティブパラメータはわずか7億6千万個ですが、ZAYA1ベースはLlama-3-8Bのような高密度モデルを上回り、数学およびコーディングベンチマークでQwen3-4BやGemma3-12Bと競合します。高pass@k環境では、ベースモデルは専門的な推論モデルの性能に近づきます。
29.81K