Bit-TTTエンジンを革新しよう。 これまでは「Bit-TTT-Engineで作成されたLLMのみが動作可能で→LLMは存在しない」という状態でしたが、既存のLLM(Llama-3のような安全テンソルファイル)を可変ビット精度(1.58ビット×N)に分解する[1.58ビット変換ツール]を作成します。 下の画像は、4096×4096ガウス行列(Llama-3の一層分の大きさ)を持つPythonのプロトタイプです。 1. 高い圧縮効率:3基底(3基)でもFP16(32MB)と比べて約30%の容量です。 2. 誤差削減:三段階分解では誤差(RMSE)が初期値の約1/4に減少しました。 3. 実行可能性:Pythonのプロトタイプは高速で動作し、Llama-3の変換は現実的な時間内に可能です。 この結果から、Rustエンジンが「可変長ベース加算」をサポートしていれば、4GB VRAMを搭載したLlama-3クラスモデルを高精度で動作させる目標は技術的に実現可能であると判断できます。 以下はロードマップです。 --- 🚀 プロジェクトロードマップ:フェーズ10.5(適応分解) ミッション:Llama-3(8B)クラスのモデルを、コンシューマーGPU(4GB VRAM)を「実用的な速度と精度」で運用すること。 🎯 コアコンセプト 既存のBitNet(1.58bit)の制限であった「再学習の必要性」をなくしました。 学習後量子化(PTQ)と適応三進分解(ATD)は、既存のFP16モデルを動的に量子化し実行可能にします。 📅 開発段階 フェーズ1:ブリッジ(Pythonツールとデータレイアウト) 目標:既存のモデルを「Nベース」に分解し、GPU最適化された形式で保存すること。 🔧 実施: コンバーター(convert_adaptive.py):グリーディ残差法を用いた重み分解アルゴリズムの実装。 インターリーブド・パッキング:推論速度とインターリーブ[w0, w1, w2]をパラメータごとに優先するweight_packedフォーマットです。 レガシーサポート:既存のBitNetモデル(N=1)との互換性を維持するデータ設計。 ...