Revolutionera Bit-TTT-motorn. Hittills var det ett tillstånd av "endast LLM:er skapade med Bit-TTT-Engine kan köras→ och det finns inga LLM:er", men vi kommer att skapa ett [1,58-bitars konverteringsverktyg] som delar upp befintliga LLM:er (safetensors-filer som Llama-3) till variabel bitprecision (1,58 bit x N). Bilden nedan är en Python-prototyp med en 4096x4096 Gaussisk matris (storleken av ett lager av Llama-3). 1. Hög kompressionseffektivitet: Även med tre baser (bas 3) är den cirka 30 % av storleken jämfört med FP16 (32 MB). 2. Felreduktion: Vid trestegsdekompositionen minskades felet (RMSE) till cirka 1/4 av initialvärdet. 3. Exekverbarhet: Prototyper i Python går snabbt, och hela Llama-3-konverteringen är möjlig på tillräckligt realistisk tid. Utifrån detta resultat kan man fastställa att målet att köra en Llama-3-klassmodell med 4GB VRAM med hög noggrannhet är tekniskt möjligt om Rust-motorn stödjer "variabel längd på basaddition". Följande är färdplanen. --- 🚀 Projektfärdplan: Fas 10.5 (Adaptiv dekomposition) Uppdrag: Köra en modell i Llama-3 (8B)-klassen med ett konsument-GPU (4 GB VRAM) i "praktisk hastighet och precision". 🎯 Kärnkoncept Eliminerade "behovet av ominlärning" som var en begränsning i det befintliga BitNet (1,58 bit). Post-learning kvantisering (PTQ) och adaptiv ternær dekomposition (ATD) kvantiserar och exekverbara befintliga FP16-modeller dynamiskt. 📅 Utvecklingsfaser Fas 1: Bron (Python-verktyg och datalayout) Mål: Dela upp befintliga modeller i "N-baser" och lagra dem i ett GPU-optimerat format. 🔧 Implementering: Omvandlare (convert_adaptive.py): Implementering av en viktad dekompositionsalgoritm med hjälp av Greedy Restaves-metoden. Interleaved Packing: Ett weight_packed format som prioriterar inferenshastighet och interleaved [w0, w1, w2] parameter-för-parameter. Legacy Support: Datadesign som upprätthåller kompatibilitet med befintliga BitNet-modeller (N=1). ...