Bit-TTT-Engineに革命起こします。 今までは ”Bit-TTT-Engineで作ったLLMしか動かない→LLMが無い” 状態でしたが、既存のLLM(Llama-3等のsafetensorsファイル)を可変ビット精度 (1.58bit x N) に分解する 【1.58-bit変換ツール】の作成を行います。 以下の画像はPythonプロトタイプで、4096x4096のガウス行列(Llama-3の1層相当の規模)で実験を行った結果です。 1.高い圧縮効率: 3つの基底(Base 3)を使っても、FP16 (32MB) に対して 約30% のサイズに収まっています。 2.誤差の減少: 3段階の分解で、誤差(RMSE)は初期値の 1/4 程度まで減少しました。 3.実行可能性: Pythonでのプロトタイプは高速に動作しており、Llama-3全体の変換も十分現実的な時間で可能です。 この結果から、Rustエンジン側で「可変長のBase加算」をサポートすれば、Llama-3 クラスのモデルを 4GB VRAM で高精度に動かす という目標は技術的に十分可能であると判断できます。 以下、ロードマップです。 --- 🚀 Project Roadmap: Phase 10.5 (Adaptive Decomposition) Mission: Llama-3 (8B) クラスのモデルを、コンシューマー向けGPU(VRAM 4GB)で「実用的な速度と精度」で動作させる。 🎯 Core Concept 既存のBitNet(1.58bit)の制約であった「再学習の必要性」を撤廃。 事後学習量子化(PTQ)と Adaptive Ternary Decomposition (ATD) により、既存のFP16モデルを動的に量子化・実行可能にする。 📅 Development Phases Phase 1: The Bridge (Python Tooling & Data Layout) Goal: 既存モデルを「N基底」に分解し、GPUに最適化された形式で保存する。 🔧 Implementation: Converter (convert_adaptive.py): Greedy Residual法を用いた重み分解アルゴリズムの実装。 Interleaved Packing: 推論速度を最優先し、[w0, w1, w2] をパラメータ単位でインターリーブ配置した weight_packed 形式を採用。 Legacy Support: 既存のBitNetモデル(N=1)との互換性を維持するデータ設計。 ...