Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bit-TTT-Engine rivoluzionerà il settore.
Fino ad ora, eravamo in uno stato in cui "solo i LLM creati con Bit-TTT-Engine funzionano → non ci sono LLM". Ora stiamo creando uno strumento di conversione a precisione variabile (1.58bit x N) per decomporre i LLM esistenti (file safetensors come Llama-3).
L'immagine seguente mostra i risultati di un esperimento condotto con un prototipo Python su una matrice gaussiana 4096x4096 (corrispondente a un livello di Llama-3).
1. Alta efficienza di compressione: anche utilizzando tre basi (Base 3), siamo riusciti a ridurre la dimensione a circa il 30% rispetto a FP16 (32MB).
2. Riduzione dell'errore: con una decomposizione in tre fasi, l'errore (RMSE) è stato ridotto a circa 1/4 del valore iniziale.
3. Fattibilità: il prototipo in Python funziona rapidamente e la conversione dell'intero Llama-3 è realizzabile in tempi ragionevoli.
Da questi risultati, possiamo concludere che se il motore Rust supporta "l'addizione a base variabile", è tecnicamente possibile eseguire modelli di classe Llama-3 con alta precisione su 4GB di VRAM.
Di seguito, la roadmap.
---
🚀 Roadmap del Progetto: Fase 10.5 (Decomposizione Adattiva)
Missione: Eseguire modelli di classe Llama-3 (8B) su GPU consumer (VRAM 4GB) con "velocità e precisione pratiche".
🎯 Concetto Chiave
Eliminare la "necessità di riaddestramento" imposta dai vincoli dell'attuale BitNet (1.58bit). Attraverso la quantizzazione post-addestramento (PTQ) e la Decomposizione Ternaria Adattiva (ATD), rendere dinamicamente quantizzabili e eseguibili i modelli FP16 esistenti.
📅 Fasi di Sviluppo
Fase 1: Il Ponte (Strumenti Python e Layout Dati)
Obiettivo: Decomporre i modelli esistenti in "N basi" e salvarli in un formato ottimizzato per GPU.
🔧 Implementazione:
Converter (convert_adaptive.py): Implementazione di un algoritmo di decomposizione dei pesi utilizzando il metodo Greedy Residual.
Interleaved Packing: Per dare priorità alla velocità di inferenza, adottare un formato weight_packed in cui [w0, w1, w2] sono disposti in modo interleaved a livello di parametro.
Legacy Support: Progettazione dei dati per mantenere la compatibilità con i modelli BitNet esistenti (N=1).
...

Principali
Ranking
Preferiti
