一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Bit-TTT-Engineに革命起こします。今までは ”Bit-TTT-Engineで作ったLLMしか動かない→LLMが無い” 状態でしたが、既存のLLM（Llama-3等のsafetensorsファイル）を可変ビット精度 (1.58bit x N) に分解する　【1.58-bit変換ツール】の作成を行います。以下の画像はPythonプロトタイプで、4096x4096のガウス行列（Llama-3の1層相当の規模）で実験を行った結果です。１.高い圧縮効率: 3つの基底（Base 3）を使っても、FP16 (32MB) に対して約30% のサイズに収まっています。２.誤差の減少: 3段階の分解で、誤差（RMSE）は初期値の 1/4 程度まで減少しました。３.実行可能性: Pythonでのプロトタイプは高速に動作しており、Llama-3全体の変換も十分現実的な時間で可能です。この結果から、Rustエンジン側で「可変長のBase加算」をサポートすれば、Llama-3 クラスのモデルを 4GB VRAM で高精度に動かすという目標は技術的に十分可能であると判断できます。以下、ロードマップです。 --- 🚀 Project Roadmap: Phase 10.5 (Adaptive Decomposition) Mission: Llama-3 (8B) クラスのモデルを、コンシューマー向けGPU（VRAM 4GB）で「実用的な速度と精度」で動作させる。 🎯 Core Concept 既存のBitNet（1.58bit）の制約であった「再学習の必要性」を撤廃。事後学習量子化（PTQ）と Adaptive Ternary Decomposition (ATD) により、既存のFP16モデルを動的に量子化・実行可能にする。 📅 Development Phases Phase 1: The Bridge (Python Tooling & Data Layout) Goal: 既存モデルを「N基底」に分解し、GPUに最適化された形式で保存する。 🔧 Implementation: Converter (convert_adaptive.py): Greedy Residual法を用いた重み分解アルゴリズムの実装。 Interleaved Packing: 推論速度を最優先し、[w0, w1, w2] をパラメータ単位でインターリーブ配置した weight_packed 形式を採用。 Legacy Support: 既存のBitNetモデル（N=1）との互換性を維持するデータ設計。 ...