Revoluționează motorul Bit-TTT. Până acum, era o stare în care "doar LLM-urile create cu Bit-TTT-Engine pot rula→ și nu există LLM-uri", dar vom crea un [instrument de conversie pe 1,58 biți] care descompune LLM-urile existente (fișiere safetensor precum Llama-3) în precizie variabilă a biților (1,58 bit x N). Imaginea de mai jos este un prototip Python cu o matrice gaussiană de 4096x4096 (dimensiunea unui singur strat de Llama-3). 1. Eficiență ridicată de compresie: Chiar și cu trei baze (Bază 3), reprezintă aproximativ 30% din dimensiune comparativ cu FP16 (32MB). 2. Reducerea eroarei: În decompunerea în trei pași, eroarea (RMSE) a fost redusă la aproximativ 1/4 din valoarea inițială. 3. Executabilitate: Prototipurile în Python rulează rapid, iar întreaga conversie la Llama-3 este posibilă într-un timp suficient de realist. Din acest rezultat, se poate determina că obiectivul de a rula un model din clasa Llama-3 cu 4GB VRAM cu o acuratețe ridicată este tehnic fezabil dacă motorul Rust suportă "adăugarea de bază cu lungime variabilă". Următoarea este foaia de parcurs. --- 🚀 Foaie de parcurs a proiectului: Faza 10.5 (Descompunere Adaptivă) Misiune: Rularea unui model din clasa Llama-3 (8B) cu o placă video de consum (4GB VRAM) la "viteză practică și precizie". 🎯 Concept de bază A eliminat "nevoia de reînvățare" care era o limitare a existentului BitNet (1,58bit). Cuantificarea post-învățare (PTQ) și descompunerea ternară adaptivă (ATD) cuantifică dinamic și executabil modelele FP16 existente. 📅 Faze de dezvoltare Faza 1: Podul (Unelte Python și Aranjarea Datelor) Obiectiv: Descompunerea modelelor existente în "N-baze" și stocarea lor într-un format optimizat pentru GPU. 🔧 Implementare: Converter (convert_adaptive.py): Implementarea unui algoritm de descompunere ponderată folosind metoda Greedy Residual. Împachetare intercalată: Un format weight_packed care prioritizează viteza inferenței și intercalarea [w0, w1, w2] pe bază de parametru cu parametru. Suport moștenit: Design de date care menține compatibilitatea cu modelele BitNet existente (N=1). ...