Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Revolusjoner Bit-TTT-motoren.
Frem til nå var det en tilstand at «kun LLM-er laget med Bit-TTT-Engine kan kjøre→ og det finnes ingen LLM-er», men vi vil lage et [1,58-bits konverteringsverktøy] som dekomponerer eksisterende LLM-er (safetensor-filer som Llama-3) til variabel bitpresisjon (1,58bit x N).
Bildet under er en Python-prototype med en 4096x4096 Gaussisk matrise (størrelsen til ett lag av Llama-3).
1. Høy komprimeringseffektivitet: Selv med tre baser (base 3) er det omtrent 30 % av størrelsen sammenlignet med FP16 (32 MB).
2. Feilreduksjon: I tretrinnsdekomponeringen ble feilen (RMSE) redusert til omtrent 1/4 av den opprinnelige verdien.
3. Kjørbarhet: Prototyper i Python kjører raskt, og hele Llama-3-konverteringen er mulig på realistisk nok tid.
Ut fra dette resultatet kan det fastslås at målet om å kjøre en Llama-3-klasse modell med 4GB VRAM med høy nøyaktighet er teknisk gjennomførbart dersom Rust-motoren støtter "variabel lengde-baseaddisjon".
Følgende er veikartet.
---
🚀 Prosjektveikart: Fase 10.5 (Adaptiv dekomponering)
Oppdrag: Kjøre en modell i Llama-3 (8B)-klassen med et forbruker-GPU (4 GB VRAM) med «praktisk hastighet og nøyaktighet».
🎯 Kjernekonsept
Fjernet «behovet for å lære på nytt» som var en begrensning ved eksisterende BitNet (1,58 bit). Post-læringskvantisering (PTQ) og adaptiv ternær dekomponering (ATD) kvantiserer og kjørbare eksisterende FP16-modeller dynamisk.
📅 Utviklingsfaser
Fase 1: Broen (Python-verktøy og dataoppsett)
Mål: Dekomponere eksisterende modeller i "N-baser" og lagre dem i et GPU-optimalisert format.
🔧 Implementering:
Converter (convert_adaptive.py): Implementering av en vektet dekomponeringsalgoritme ved bruk av Greedy Reresidual-metoden.
Interleaved Packing: Et weight_packed format som prioriterer inferenshastighet og interleaved [w0, w1, w2] på parameter-for-parameter-basis.
Eldre støtte: Datadesign som opprettholder kompatibilitet med eksisterende BitNet-modeller (N=1).
...

Topp
Rangering
Favoritter
