热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Bit-TTT-Engine将引发革命。
过去的状态是“只能运行用Bit-TTT-Engine制作的LLM→没有LLM”,但我们将创建一个将现有LLM(如Llama-3等的safetensors文件)分解为可变位精度(1.58bit x N)的【1.58-bit转换工具】。
以下图片是Python原型,在4096x4096的高斯矩阵(相当于Llama-3的一层规模)上进行实验的结果。
1. 高压缩效率:即使使用三个基底(Base 3),也能压缩到约30%的FP16(32MB)大小。
2. 减少误差:通过三阶段分解,误差(RMSE)减少到初始值的1/4左右。
3. 可行性:Python原型运行速度快,Llama-3整体转换在合理时间内是可行的。
根据这些结果,如果Rust引擎支持“可变长度的Base加法”,那么在4GB VRAM下高精度运行Llama-3类模型的目标在技术上是完全可行的。
以下是路线图。
---
🚀 项目路线图:第10.5阶段(自适应分解)
任务:在消费者级GPU(VRAM 4GB)上以“实用的速度和精度”运行Llama-3(8B)类模型。
🎯 核心概念
消除现有BitNet(1.58bit)限制下的“再学习必要性”。通过后学习量子化(PTQ)和自适应三元分解(ATD),使现有的FP16模型能够动态量子化和执行。
📅 开发阶段
第1阶段:桥接(Python工具和数据布局)
目标:将现有模型分解为“N基底”,并以优化的形式保存到GPU中。
🔧 实施:
转换器(convert_adaptive.py):实现使用贪婪残差法的权重分解算法。
交错打包:优先考虑推理速度,采用[w0, w1, w2]按参数单位交错排列的weight_packed格式。
遗留支持:保持与现有BitNet模型(N=1)的兼容性的数据设计。
...

热门
排行
收藏
