Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Merevolusi Bit-TTT-Engine.
Sampai sekarang, itu adalah keadaan "hanya LLM yang dibuat dengan Bit-TTT-Engine yang dapat berjalan→ dan tidak ada LLM", tetapi kami akan membuat [alat konversi 1,58-bit] yang menguraikan LLM yang ada (file safetensors seperti Llama-3) menjadi presisi bit variabel (1,58bit x N).
Gambar di bawah ini adalah prototipe Python dengan matriks Gaussian 4096x4096 (ukuran satu lapisan Llama-3).
1. Efisiensi kompresi tinggi: Bahkan dengan tiga basis (Basis 3), ukurannya sekitar 30% dibandingkan dengan FP16 (32MB).
2. Pengurangan kesalahan: Dalam dekomposisi tiga langkah, kesalahan (RMSE) dikurangi menjadi sekitar 1/4 dari nilai awal.
3. Eksekusi: Prototipe dalam Python berjalan cepat, dan seluruh konversi Llama-3 dimungkinkan dalam waktu yang cukup realistis.
Dari hasil ini, dapat ditentukan bahwa tujuan menjalankan model kelas Llama-3 dengan VRAM 4GB dengan akurasi tinggi secara teknis layak jika mesin Rust mendukung "penambahan dasar panjang variabel".
Berikut ini adalah peta jalannya.
---
🚀 Peta Jalan Proyek: Fase 10.5 (Dekomposisi Adaptif)
Misi: Menjalankan model di kelas Llama-3 (8B) dengan GPU konsumen (4GB VRAM) pada "kecepatan dan akurasi praktis".
🎯 Konsep Inti
Menghilangkan "kebutuhan untuk belajar ulang" yang merupakan batasan dari BitNet yang ada (1.58bit). Kuantisasi pasca-pembelajaran (PTQ) dan dekomposisi terner adaptif (ATD) secara dinamis mengkuantisasi dan dapat dieksekusi model FP16 yang ada.
📅 Fase Pengembangan
Fase 1: Jembatan (Python Tooling & Data Layout)
Sasaran: Menguraikan model yang ada menjadi "N-bases" dan menyimpannya dalam format yang dioptimalkan GPU.
🔧 Implementasi:
Konverter (convert_adaptive.py): Implementasi algoritma dekomposisi tertimbang menggunakan metode Greedy Residual.
Interleaved Packing: Format weight_packed yang memprioritaskan kecepatan inferensi dan interleaved [w0, w1, w2] berdasarkan parameter demi parameter.
Dukungan Lama: Desain data yang mempertahankan kompatibilitas dengan model BitNet yang ada (N=1).
...

Teratas
Peringkat
Favorit
