Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Revoluționează motorul Bit-TTT.
Până acum, era o stare în care "doar LLM-urile create cu Bit-TTT-Engine pot rula→ și nu există LLM-uri", dar vom crea un [instrument de conversie pe 1,58 biți] care descompune LLM-urile existente (fișiere safetensor precum Llama-3) în precizie variabilă a biților (1,58 bit x N).
Imaginea de mai jos este un prototip Python cu o matrice gaussiană de 4096x4096 (dimensiunea unui singur strat de Llama-3).
1. Eficiență ridicată de compresie: Chiar și cu trei baze (Bază 3), reprezintă aproximativ 30% din dimensiune comparativ cu FP16 (32MB).
2. Reducerea eroarei: În decompunerea în trei pași, eroarea (RMSE) a fost redusă la aproximativ 1/4 din valoarea inițială.
3. Executabilitate: Prototipurile în Python rulează rapid, iar întreaga conversie la Llama-3 este posibilă într-un timp suficient de realist.
Din acest rezultat, se poate determina că obiectivul de a rula un model din clasa Llama-3 cu 4GB VRAM cu o acuratețe ridicată este tehnic fezabil dacă motorul Rust suportă "adăugarea de bază cu lungime variabilă".
Următoarea este foaia de parcurs.
---
🚀 Foaie de parcurs a proiectului: Faza 10.5 (Descompunere Adaptivă)
Misiune: Rularea unui model din clasa Llama-3 (8B) cu o placă video de consum (4GB VRAM) la "viteză practică și precizie".
🎯 Concept de bază
A eliminat "nevoia de reînvățare" care era o limitare a existentului BitNet (1,58bit). Cuantificarea post-învățare (PTQ) și descompunerea ternară adaptivă (ATD) cuantifică dinamic și executabil modelele FP16 existente.
📅 Faze de dezvoltare
Faza 1: Podul (Unelte Python și Aranjarea Datelor)
Obiectiv: Descompunerea modelelor existente în "N-baze" și stocarea lor într-un format optimizat pentru GPU.
🔧 Implementare:
Converter (convert_adaptive.py): Implementarea unui algoritm de descompunere ponderată folosind metoda Greedy Residual.
Împachetare intercalată: Un format weight_packed care prioritizează viteza inferenței și intercalarea [w0, w1, w2] pe bază de parametru cu parametru.
Suport moștenit: Design de date care menține compatibilitatea cu modelele BitNet existente (N=1).
...

Limită superioară
Clasament
Favorite
