我们已经开源了HY-1.8B-2Bit,这是一个为设备端部署构建的高效2位LLM。该模型将1.8B基础缩减到有效的0.3B参数占用,仅需600MB的存储空间,比许多移动应用程序还要小。 🔹 超低位策略:使用QAT(量化感知训练)达到2位表示(0.3B位等效大小)。 🔹 双重思维推理:尽管精度大幅降低,但仍保留复杂的双重思维链能力。 🔹 性能:在Apple M4和MediaTek Dimensity 9500上预填充速度提高3-8倍;设备端令牌生成速度提高2-3倍。 🔹 基准提升:在同等大小的模型中,平均准确率领先17%。 🔹 硬件协同:针对Arm SME2和现代消费级硅片进行了优化。 HY-1.8B-2Bit现在以GGUF格式提供,便于无缝集成到边缘推理引擎中。 项目页面: 权重: GGUF版本: 技术报告: