一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们已经开源了HY-1.8B-2Bit，这是一个为设备端部署构建的高效2位LLM。该模型将1.8B基础缩减到有效的0.3B参数占用，仅需600MB的存储空间，比许多移动应用程序还要小。 🔹 超低位策略：使用QAT（量化感知训练）达到2位表示（0.3B位等效大小）。 🔹 双重思维推理：尽管精度大幅降低，但仍保留复杂的双重思维链能力。 🔹 性能：在Apple M4和MediaTek Dimensity 9500上预填充速度提高3-8倍；设备端令牌生成速度提高2-3倍。 🔹 基准提升：在同等大小的模型中，平均准确率领先17%。 🔹 硬件协同：针对Arm SME2和现代消费级硅片进行了优化。 HY-1.8B-2Bit现在以GGUF格式提供，便于无缝集成到边缘推理引擎中。项目页面：权重： GGUF版本：技术报告：