Merevolusi Bit-TTT-Engine. Sampai sekarang, itu adalah keadaan "hanya LLM yang dibuat dengan Bit-TTT-Engine yang dapat berjalan→ dan tidak ada LLM", tetapi kami akan membuat [alat konversi 1,58-bit] yang menguraikan LLM yang ada (file safetensors seperti Llama-3) menjadi presisi bit variabel (1,58bit x N). Gambar di bawah ini adalah prototipe Python dengan matriks Gaussian 4096x4096 (ukuran satu lapisan Llama-3). 1. Efisiensi kompresi tinggi: Bahkan dengan tiga basis (Basis 3), ukurannya sekitar 30% dibandingkan dengan FP16 (32MB). 2. Pengurangan kesalahan: Dalam dekomposisi tiga langkah, kesalahan (RMSE) dikurangi menjadi sekitar 1/4 dari nilai awal. 3. Eksekusi: Prototipe dalam Python berjalan cepat, dan seluruh konversi Llama-3 dimungkinkan dalam waktu yang cukup realistis. Dari hasil ini, dapat ditentukan bahwa tujuan menjalankan model kelas Llama-3 dengan VRAM 4GB dengan akurasi tinggi secara teknis layak jika mesin Rust mendukung "penambahan dasar panjang variabel". Berikut ini adalah peta jalannya. --- 🚀 Peta Jalan Proyek: Fase 10.5 (Dekomposisi Adaptif) Misi: Menjalankan model di kelas Llama-3 (8B) dengan GPU konsumen (4GB VRAM) pada "kecepatan dan akurasi praktis". 🎯 Konsep Inti Menghilangkan "kebutuhan untuk belajar ulang" yang merupakan batasan dari BitNet yang ada (1.58bit). Kuantisasi pasca-pembelajaran (PTQ) dan dekomposisi terner adaptif (ATD) secara dinamis mengkuantisasi dan dapat dieksekusi model FP16 yang ada. 📅 Fase Pengembangan Fase 1: Jembatan (Python Tooling & Data Layout) Sasaran: Menguraikan model yang ada menjadi "N-bases" dan menyimpannya dalam format yang dioptimalkan GPU. 🔧 Implementasi: Konverter (convert_adaptive.py): Implementasi algoritma dekomposisi tertimbang menggunakan metode Greedy Residual. Interleaved Packing: Format weight_packed yang memprioritaskan kecepatan inferensi dan interleaved [w0, w1, w2] berdasarkan parameter demi parameter. Dukungan Lama: Desain data yang mempertahankan kompatibilitas dengan model BitNet yang ada (N=1). ...