DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Wir werden die Bit-TTT-Engine revolutionieren. Bisher war der Zustand "Nur LLMs, die mit Bit-TTT-Engine erstellt wurden, funktionieren → Es gibt kein LLM". Wir werden ein Tool zur Umwandlung in variable Bit-Präzision (1,58 Bit x N) erstellen, das bestehende LLMs (wie Safetensors-Dateien von Llama-3) zerlegt. Das folgende Bild zeigt die Ergebnisse eines Experiments mit einem Python-Prototypen, der eine Gaußsche Matrix der Größe 4096x4096 (entsprechend einer Schicht von Llama-3) verwendet. 1. Hohe Kompressionseffizienz: Selbst mit drei Basen (Basis 3) passt es auf etwa 30 % der Größe von FP16 (32 MB). 2. Reduzierung des Fehlers: Durch die dreistufige Zerlegung wurde der Fehler (RMSE) auf etwa 1/4 des ursprünglichen Wertes reduziert. 3. Durchführbarkeit: Der Prototyp in Python läuft schnell, und die Umwandlung des gesamten Llama-3 ist in einer realistischen Zeit möglich. Aus diesen Ergebnissen können wir schließen, dass es technisch durchaus möglich ist, ein Modell der Klasse Llama-3 mit 4 GB VRAM hochpräzise zu betreiben, wenn die Rust-Engine "variable Basisaddition" unterstützt. Hier ist der Fahrplan. --- 🚀 Projektfahrplan: Phase 10.5 (Adaptive Zerlegung) Mission: Modelle der Klasse Llama-3 (8B) mit "praktischer Geschwindigkeit und Präzision" auf Consumer-GPUs (VRAM 4GB) zum Laufen zu bringen. 🎯 Kernkonzept Die Einschränkung der bestehenden BitNet (1,58 Bit), die "Neulernen erforderlich" war, wird aufgehoben. Durch Post-Training Quantization (PTQ) und Adaptive Ternary Decomposition (ATD) wird es möglich, bestehende FP16-Modelle dynamisch zu quantisieren und auszuführen. 📅 Entwicklungsphasen Phase 1: Die Brücke (Python-Tools & Datenlayout) Ziel: Bestehende Modelle in "N Basen" zu zerlegen und in einem GPU-optimierten Format zu speichern. 🔧 Implementierung: Converter (convert_adaptive.py): Implementierung eines Gewichtszersetzungsalgorithmus mit der Greedy Residual-Methode. Interleaved Packing: Um die Inferenzgeschwindigkeit zu priorisieren, wird das weight_packed-Format verwendet, bei dem [w0, w1, w2] parameterweise interleaved angeordnet sind. Legacy Support: Datenlayout, das die Kompatibilität mit bestehenden BitNet-Modellen (N=1) aufrechterhält. ...

Top

Ranking

Favoriten