一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Bit-TTT-Engine将引发革命。过去的状态是“只能运行用Bit-TTT-Engine制作的LLM→没有LLM”，但我们将创建一个将现有LLM（如Llama-3等的safetensors文件）分解为可变位精度（1.58bit x N）的【1.58-bit转换工具】。以下图片是Python原型，在4096x4096的高斯矩阵（相当于Llama-3的一层规模）上进行实验的结果。 1. 高压缩效率：即使使用三个基底（Base 3），也能压缩到约30%的FP16（32MB）大小。 2. 减少误差：通过三阶段分解，误差（RMSE）减少到初始值的1/4左右。 3. 可行性：Python原型运行速度快，Llama-3整体转换在合理时间内是可行的。根据这些结果，如果Rust引擎支持“可变长度的Base加法”，那么在4GB VRAM下高精度运行Llama-3类模型的目标在技术上是完全可行的。以下是路线图。 --- 🚀 项目路线图：第10.5阶段（自适应分解）任务：在消费者级GPU（VRAM 4GB）上以“实用的速度和精度”运行Llama-3（8B）类模型。 🎯 核心概念消除现有BitNet（1.58bit）限制下的“再学习必要性”。通过后学习量子化（PTQ）和自适应三元分解（ATD），使现有的FP16模型能够动态量子化和执行。 📅 开发阶段第1阶段：桥接（Python工具和数据布局）目标：将现有模型分解为“N基底”，并以优化的形式保存到GPU中。 🔧 实施：转换器（convert_adaptive.py）：实现使用贪婪残差法的权重分解算法。交错打包：优先考虑推理速度，采用[w0, w1, w2]按参数单位交错排列的weight_packed格式。遗留支持：保持与现有BitNet模型（N=1）的兼容性的数据设计。 ...