一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

用更少的資源做更多的事情——一些領先開源模型的基準。 "儘管運行的活躍參數數量僅為一小部分，ZAYA1-base（760m 活躍）在性能上與領先模型如 Qwen3-4B（阿里巴巴）和 Gemma3-12B（谷歌）相當，並且在推理、數學和編碼基準上超越了包括 Llama-3-8B（Meta）和 OLMoE 的模型。" — 第一張圖表——有關 Zyphra 的壓縮卷積注意力（CCA）的詳細信息：附註：對我的標語的回應："Zyphra 不諱言地 *是* 西方的 DeepSeek……這不僅僅是因為它是最開放的 *且* 人口統計上屬於西方的實驗室之一（而 DeepSeek 當然是 100% 中國的）。數學嚴謹性和科學文化。" — + 技術博客：以及 + 技術論文： + Hugging Face：