用更少的资源做更多的事情——一些领先开源模型的基准。 “尽管活跃参数数量仅为领先模型的一小部分,ZAYA1-base(760m 活跃)在性能上与 Qwen3-4B(阿里巴巴)和 Gemma3-12B(谷歌)等领先模型相当,并且在推理、数学和编码基准测试中超越了包括 Llama-3-8B(Meta)和 OLMoE 在内的模型。” — 第一张图表——关于 Zyphra 的压缩卷积注意力(CCA)的详细信息: 附言:我对我的标语的回应:“Zyphra 不讽刺地 *是* 西方的 DeepSeek……这不仅仅是因为它是最开放的 *且* 人口统计上属于西方的实验室之一(而 DeepSeek 当然是 100% 中国的)。数学严谨性和科学文化。” — + 技术博客: 以及 + 技术论文: + Hugging Face: