DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Bit-TTT-Engine rivoluzionerà il settore. Fino ad ora, eravamo in uno stato in cui "solo i LLM creati con Bit-TTT-Engine funzionano → non ci sono LLM". Ora stiamo creando uno strumento di conversione a precisione variabile (1.58bit x N) per decomporre i LLM esistenti (file safetensors come Llama-3). L'immagine seguente mostra i risultati di un esperimento condotto con un prototipo Python su una matrice gaussiana 4096x4096 (corrispondente a un livello di Llama-3). 1. Alta efficienza di compressione: anche utilizzando tre basi (Base 3), siamo riusciti a ridurre la dimensione a circa il 30% rispetto a FP16 (32MB). 2. Riduzione dell'errore: con una decomposizione in tre fasi, l'errore (RMSE) è stato ridotto a circa 1/4 del valore iniziale. 3. Fattibilità: il prototipo in Python funziona rapidamente e la conversione dell'intero Llama-3 è realizzabile in tempi ragionevoli. Da questi risultati, possiamo concludere che se il motore Rust supporta "l'addizione a base variabile", è tecnicamente possibile eseguire modelli di classe Llama-3 con alta precisione su 4GB di VRAM. Di seguito, la roadmap. --- 🚀 Roadmap del Progetto: Fase 10.5 (Decomposizione Adattiva) Missione: Eseguire modelli di classe Llama-3 (8B) su GPU consumer (VRAM 4GB) con "velocità e precisione pratiche". 🎯 Concetto Chiave Eliminare la "necessità di riaddestramento" imposta dai vincoli dell'attuale BitNet (1.58bit). Attraverso la quantizzazione post-addestramento (PTQ) e la Decomposizione Ternaria Adattiva (ATD), rendere dinamicamente quantizzabili e eseguibili i modelli FP16 esistenti. 📅 Fasi di Sviluppo Fase 1: Il Ponte (Strumenti Python e Layout Dati) Obiettivo: Decomporre i modelli esistenti in "N basi" e salvarli in un formato ottimizzato per GPU. 🔧 Implementazione: Converter (convert_adaptive.py): Implementazione di un algoritmo di decomposizione dei pesi utilizzando il metodo Greedy Residual. Interleaved Packing: Per dare priorità alla velocità di inferenza, adottare un formato weight_packed in cui [w0, w1, w2] sono disposti in modo interleaved a livello di parametro. Legacy Support: Progettazione dei dati per mantenere la compatibilità con i modelli BitNet esistenti (N=1). ...

Principali

Ranking

Preferiti