Bit-TTT-Engine zal een revolutie teweegbrengen. Tot nu toe was de situatie "alleen LLM's gemaakt met Bit-TTT-Engine kunnen draaien → er zijn geen LLM's", maar we zullen een 【1.58-bit conversietool】 maken die bestaande LLM's (zoals safetensors-bestanden van Llama-3) kan ontleden in variabele bitprecisie (1.58bit x N). De onderstaande afbeelding toont de resultaten van experimenten met een Python-prototype met een Gauss-matrix van 4096x4096 (gelijk aan één laag van Llama-3). 1. Hoge compressie-efficiëntie: zelfs met drie basis (Base 3) past het in ongeveer 30% van de grootte van FP16 (32MB). 2. Vermindering van fouten: met een driedelige ontleding is de fout (RMSE) verminderd tot ongeveer 1/4 van de oorspronkelijke waarde. 3. Uitvoerbaarheid: het prototype in Python werkt snel en de conversie van de hele Llama-3 is binnen een realistische tijd mogelijk. Op basis van deze resultaten kunnen we concluderen dat als de Rust-engine "variabele lengte basisoptelling" ondersteunt, het technisch haalbaar is om modellen van de klasse Llama-3 met hoge precisie te draaien op 4GB VRAM. Hieronder volgt de roadmap. --- 🚀 Project Roadmap: Fase 10.5 (Adaptieve Ontleding) Missie: Modellen van de klasse Llama-3 (8B) laten draaien op consumenten-GPU's (VRAM 4GB) met "praktische snelheid en precisie". 🎯 Kernconcept De beperking van het bestaande BitNet (1.58bit) dat "hertraining nodig is" wordt opgeheven. Door post-training kwantisatie (PTQ) en Adaptieve Ternary Decomposition (ATD) kunnen bestaande FP16-modellen dynamisch gekwantiseerd en uitgevoerd worden. 📅 Ontwikkelingsfasen Fase 1: De Brug (Python Tooling & Data Layout) Doel: Bestaande modellen ontleden in "N basis" en opslaan in een GPU-geoptimaliseerd formaat. 🔧 Implementatie: Converter (convert_adaptive.py): Implementatie van een gewichtsontledingsalgoritme met de Greedy Residual-methode. Interleaved Packing: Om de inferentiesnelheid te prioriteren, wordt de weight_packed-indeling aangenomen waarbij [w0, w1, w2] interleaved is op parameterbasis. Legacy Support: Gegevensontwerp dat compatibiliteit met bestaande BitNet-modellen (N=1) behoudt. ...