一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

用更少的资源做更多的事情——一些领先开源模型的基准。 “尽管活跃参数数量仅为领先模型的一小部分，ZAYA1-base（760m 活跃）在性能上与 Qwen3-4B（阿里巴巴）和 Gemma3-12B（谷歌）等领先模型相当，并且在推理、数学和编码基准测试中超越了包括 Llama-3-8B（Meta）和 OLMoE 在内的模型。” — 第一张图表——关于 Zyphra 的压缩卷积注意力（CCA）的详细信息：附言：我对我的标语的回应：“Zyphra 不讽刺地 *是* 西方的 DeepSeek……这不仅仅是因为它是最开放的 *且* 人口统计上属于西方的实验室之一（而 DeepSeek 当然是 100% 中国的）。数学严谨性和科学文化。” — + 技术博客：以及 + 技术论文： + Hugging Face：