用更少的資源做更多的事情——一些領先開源模型的基準。 "儘管運行的活躍參數數量僅為一小部分,ZAYA1-base(760m 活躍)在性能上與領先模型如 Qwen3-4B(阿里巴巴)和 Gemma3-12B(谷歌)相當,並且在推理、數學和編碼基準上超越了包括 Llama-3-8B(Meta)和 OLMoE 的模型。" — 第一張圖表——有關 Zyphra 的壓縮卷積注意力(CCA)的詳細信息: 附註:對我的標語的回應:"Zyphra 不諱言地 *是* 西方的 DeepSeek……這不僅僅是因為它是最開放的 *且* 人口統計上屬於西方的實驗室之一(而 DeepSeek 當然是 100% 中國的)。數學嚴謹性和科學文化。" — + 技術博客: 以及 + 技術論文: + Hugging Face: