Revolusjoner Bit-TTT-motoren. Frem til nå var det en tilstand at «kun LLM-er laget med Bit-TTT-Engine kan kjøre→ og det finnes ingen LLM-er», men vi vil lage et [1,58-bits konverteringsverktøy] som dekomponerer eksisterende LLM-er (safetensor-filer som Llama-3) til variabel bitpresisjon (1,58bit x N). Bildet under er en Python-prototype med en 4096x4096 Gaussisk matrise (størrelsen til ett lag av Llama-3). 1. Høy komprimeringseffektivitet: Selv med tre baser (base 3) er det omtrent 30 % av størrelsen sammenlignet med FP16 (32 MB). 2. Feilreduksjon: I tretrinnsdekomponeringen ble feilen (RMSE) redusert til omtrent 1/4 av den opprinnelige verdien. 3. Kjørbarhet: Prototyper i Python kjører raskt, og hele Llama-3-konverteringen er mulig på realistisk nok tid. Ut fra dette resultatet kan det fastslås at målet om å kjøre en Llama-3-klasse modell med 4GB VRAM med høy nøyaktighet er teknisk gjennomførbart dersom Rust-motoren støtter "variabel lengde-baseaddisjon". Følgende er veikartet. --- 🚀 Prosjektveikart: Fase 10.5 (Adaptiv dekomponering) Oppdrag: Kjøre en modell i Llama-3 (8B)-klassen med et forbruker-GPU (4 GB VRAM) med «praktisk hastighet og nøyaktighet». 🎯 Kjernekonsept Fjernet «behovet for å lære på nytt» som var en begrensning ved eksisterende BitNet (1,58 bit). Post-læringskvantisering (PTQ) og adaptiv ternær dekomponering (ATD) kvantiserer og kjørbare eksisterende FP16-modeller dynamisk. 📅 Utviklingsfaser Fase 1: Broen (Python-verktøy og dataoppsett) Mål: Dekomponere eksisterende modeller i "N-baser" og lagre dem i et GPU-optimalisert format. 🔧 Implementering: Converter (convert_adaptive.py): Implementering av en vektet dekomponeringsalgoritme ved bruk av Greedy Reresidual-metoden. Interleaved Packing: Et weight_packed format som prioriterer inferenshastighet og interleaved [w0, w1, w2] på parameter-for-parameter-basis. Eldre støtte: Datadesign som opprettholder kompatibilitet med eksisterende BitNet-modeller (N=1). ...