Revolučně změnit Bit-TTT-engine. Až dosud šlo o stav "pouze LLM vytvořené pomocí Bit-TTT-Engine mohou běžet→ a neexistují žádné LLM", ale vytvoříme [nástroj pro převod na 1,58 bitů], který rozloží existující LLM (safetenzorové soubory jako Llama-3) na proměnnou bitovou přesnost (1,58bit x N). Obrázek níže je prototyp Pythonu s Gaussovou maticí 4096x4096 (velikost jedné vrstvy Llama-3). 1. Vysoká kompresní účinnost: I se třemi základnami (Base 3) je to asi 30 % velikosti oproti FP16 (32MB). 2. Snížení chyby: Při tříkrokovém rozkladu byla chyba (RMSE) snížena na přibližně 1/4 počáteční hodnoty. 3. Spustitelnost: Prototypy v Pythonu běží rychle a celá konverze Llama-3 je možná v dostatečně realistickém čase. Z tohoto výsledku lze určit, že cíl provozovat model třídy Llama-3 s 4GB VRAM s vysokou přesností je technicky dosažitelný, pokud engine Rust podporuje "přidávání základny s proměnnou délkou". Následuje plán. --- 🚀 Plán projektu: Fáze 10.5 (Adaptivní dekompozice) Mise: Provozovat model třídy Llama-3 (8B) s spotřebitelskou GPU (4GB VRAM) při "praktické rychlosti a přesnosti". 🎯 Základní koncept Tím byla odstraněna "potřeba přeučení", která byla omezením stávajícího BitNetu (1,58bit). Post-learning kvantování (PTQ) a adaptivní ternarní dekompozice (ATD) dynamicky kvantují a jsou spustitelné existující modely FP16. 📅 Fáze vývoje Fáze 1: Most (nástroje a rozvržení dat v Pythonu) Cíl: Rozložit existující modely na "N-báze" a uložit je do formátu optimalizovaného pro GPU. 🔧 Implementace: Převodník (convert_adaptive.py): Implementace algoritmu vážené dekompozice pomocí metody Greedy Residue. Prokládané balení: weight_packed formát, který upřednostňuje rychlost inference a prokládání [w0, w1, w2] na základě parametru po parametru. Podpora starších: Návrh dat, který udržuje kompatibilitu s existujícími modely BitNet (N=1). ...