Mullistaa Bit-TTT-moottori. Tähän asti tilanne oli "vain Bit-TTT-Enginellä luodut LLM:t voivat toimia→ eikä LLM:iä ole", mutta luomme [1,58-bittisen muunnostyökalun], joka hajottaa olemassa olevat LLM:t (safetensors-tiedostot kuten Llama-3) muuttuvaksi bittitarkkuudeksi (1,58bit x N). Alla oleva kuva on Python-prototyyppi, jossa on 4096x4096 Gaussin matriisi (yhden Llama-3-kerroksen kokoinen). 1. Korkea pakkaustehokkuus: Vaikka olisi kolme kantaa (Base 3), se on noin 30 % koosta verrattuna FP16:een (32MB). 2. Virheiden vähentäminen: Kolmivaiheisessa hajotelmassa virhe (RMSE) pienennettiin noin neljännekseen alkuperäisestä arvosta. 3. Suoritettavuus: Python-prototyypit toimivat nopeasti, ja koko Llama-3-muunnos on realistisessa ajassa. Tämän tuloksen perusteella voidaan todeta, että tavoite ajaa Llama-3-luokan mallia, jossa on 4GB VRAM, ja korkealla tarkkuudella, on teknisesti toteuttamiskelpoinen, jos Rust-moottori tukee "muuttuvan pituisen pohjan lisäämistä". Seuraava on tiekartta. --- 🚀 Projektin tiekartta: Vaihe 10.5 (Adaptiivinen hajotus) Tehtävä: Ajaa Llama-3 (8B) -luokan mallia, jossa on kuluttajanäytönohjain (4GB VRAMia) "käytännöllisellä nopeudella ja tarkkuudella". 🎯 Ydinkonsepti Poistettiin "uudelleenoppimisen tarve", joka oli olemassa olevan BitNetin (1,58-bittinen) rajoitus. Oppimisen jälkeinen kvantisointi (PTQ) ja adaptiivinen ternäärinen hajotelma (ATD) kvantisoivat ja suorittavat dynaamisesti olemassa olevat FP16-mallit. 📅 Kehitysvaiheet Vaihe 1: Silta (Python-työkalut ja datan asettelu) Tavoite: Hajottaa olemassa olevat mallit "N-baseiksi" ja tallentaa ne GPU-optimoituun muotoon. 🔧 Toteutus: Muunnin (convert_adaptive.py): Painotetun hajotelman algoritmin toteutus Greedy Residual -menetelmällä. Interleaved Packing: weight_packed muoto, joka priorisoi päättelynopeutta ja interleaved-[w0, w1, w2] parametri kerrallaan. Perintötuki: Datan suunnittelu, joka ylläpitää yhteensopivuutta olemassa olevien BitNet-mallien kanssa (N=1). ...