Bit-TTT-Engine'de devrim yarattı. Şimdiye kadar "sadece Bit-TTT-Engine ile oluşturulan LLM'ler çalışabilir→ LLM yok" durumuydu, ancak mevcut LLM'leri (Llama-3 gibi safetensor dosyaları) değişken bit hassasiyetine (1.58bit x N) ayıran bir [1.58-bit dönüştürme aracı] oluşturacağız. Aşağıdaki görsel, 4096x4096 ölçümlerindeki Gauss matrisine sahip bir Python prototipidir (Llama-3'ün bir katmanı büyüklüğünde). 1. Yüksek sıkıştırma verimliliği: Üç taban (Taban 3) olsa bile, FP16'ya (32MB) kıyasla boyutun yaklaşık %30'udur. 2. Hata azaltma: Üç aşamalı ayrıştırmada, hata (RMSE) başlangıç değerinin yaklaşık 1/4'üne indirgenmiştir. 3. Yürütülebilirlik: Python'daki prototipler hızlı çalışır ve tüm Llama-3 dönüşümü yeterince gerçekçi bir sürede mümkün olur. Bu sonuçta, Rust motoru "değişken uzunlukta taban ekleme" desteğini destekliyorsa, 4GB VRAM'li bir Llama-3 sınıfı modelinin yüksek hassasiyetle çalıştırılması hedefinin teknik olarak mümkün olduğu belirlenebilir. Aşağıda yol haritası yer almaktadır. --- 🚀 Proje Yol Haritası: Aşama 10.5 (Adaptif Ayrıştırma) Görev: Llama-3 (8B) sınıfında, tüketici GPU'lu (4GB VRAM) modeli "pratik hız ve doğrulukla" çalıştırmak. 🎯 Temel Kavram Mevcut BitNet'in (1.58bit) sınırlaması olan "yeniden öğrenme ihtiyacını" ortadan kaldırdı. Öğrenme sonrası kuantlaşma (PTQ) ve uyarlanabilir üçlü ayrıştırma (ATD), mevcut FP16 modellerini dinamik olarak kuantize eder ve çalıştırılabilir. 📅 Geliştirme Aşamaları Aşama 1: Köprü (Python Araçları ve Veri Düzeni) Amaç: Mevcut modelleri "N-tabanlarına" ayırmak ve GPU için optimize edilmiş bir formatta depolamak. 🔧 Uygulama: Dönüştürücü (convert_adaptive.py): Greedy Rezidual yöntemiyle ağırlıklı bir ayrıştırma algoritmasının uygulanması. Interleaved Packing: Parametre parametre bazında çıkarım hızını ve interleaved [w0, w1, w2] önceliklerini ön planlayan weight_packed bir format. Miras Destek: Mevcut BitNet modelleriyle uyumluluğu koruyan veri tasarımı (N=1). ...