熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Bit-TTT-Engineに革命起こします。
今までは ”Bit-TTT-Engineで作ったLLMしか動かない→LLMが無い” 状態でしたが、既存のLLM(Llama-3等のsafetensorsファイル)を可変ビット精度 (1.58bit x N) に分解する 【1.58-bit変換ツール】の作成を行います。
以下の画像はPythonプロトタイプで、4096x4096のガウス行列(Llama-3の1層相当の規模)で実験を行った結果です。
1.高い圧縮効率: 3つの基底(Base 3)を使っても、FP16 (32MB) に対して 約30% のサイズに収まっています。
2.誤差の減少: 3段階の分解で、誤差(RMSE)は初期値の 1/4 程度まで減少しました。
3.実行可能性: Pythonでのプロトタイプは高速に動作しており、Llama-3全体の変換も十分現実的な時間で可能です。
この結果から、Rustエンジン側で「可変長のBase加算」をサポートすれば、Llama-3 クラスのモデルを 4GB VRAM で高精度に動かす という目標は技術的に十分可能であると判断できます。
以下、ロードマップです。
---
🚀 Project Roadmap: Phase 10.5 (Adaptive Decomposition)
Mission: Llama-3 (8B) クラスのモデルを、コンシューマー向けGPU(VRAM 4GB)で「実用的な速度と精度」で動作させる。
🎯 Core Concept
既存のBitNet(1.58bit)の制約であった「再学習の必要性」を撤廃。 事後学習量子化(PTQ)と Adaptive Ternary Decomposition (ATD) により、既存のFP16モデルを動的に量子化・実行可能にする。
📅 Development Phases
Phase 1: The Bridge (Python Tooling & Data Layout)
Goal: 既存モデルを「N基底」に分解し、GPUに最適化された形式で保存する。
🔧 Implementation:
Converter (convert_adaptive.py): Greedy Residual法を用いた重み分解アルゴリズムの実装。
Interleaved Packing: 推論速度を最優先し、[w0, w1, w2] をパラメータ単位でインターリーブ配置した weight_packed 形式を採用。
Legacy Support: 既存のBitNetモデル(N=1)との互換性を維持するデータ設計。
...

熱門
排行
收藏
