Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir werden die Bit-TTT-Engine revolutionieren.
Bisher war der Zustand "Nur LLMs, die mit Bit-TTT-Engine erstellt wurden, funktionieren → Es gibt kein LLM". Wir werden ein Tool zur Umwandlung in variable Bit-Präzision (1,58 Bit x N) erstellen, das bestehende LLMs (wie Safetensors-Dateien von Llama-3) zerlegt.
Das folgende Bild zeigt die Ergebnisse eines Experiments mit einem Python-Prototypen, der eine Gaußsche Matrix der Größe 4096x4096 (entsprechend einer Schicht von Llama-3) verwendet.
1. Hohe Kompressionseffizienz: Selbst mit drei Basen (Basis 3) passt es auf etwa 30 % der Größe von FP16 (32 MB).
2. Reduzierung des Fehlers: Durch die dreistufige Zerlegung wurde der Fehler (RMSE) auf etwa 1/4 des ursprünglichen Wertes reduziert.
3. Durchführbarkeit: Der Prototyp in Python läuft schnell, und die Umwandlung des gesamten Llama-3 ist in einer realistischen Zeit möglich.
Aus diesen Ergebnissen können wir schließen, dass es technisch durchaus möglich ist, ein Modell der Klasse Llama-3 mit 4 GB VRAM hochpräzise zu betreiben, wenn die Rust-Engine "variable Basisaddition" unterstützt.
Hier ist der Fahrplan.
---
🚀 Projektfahrplan: Phase 10.5 (Adaptive Zerlegung)
Mission: Modelle der Klasse Llama-3 (8B) mit "praktischer Geschwindigkeit und Präzision" auf Consumer-GPUs (VRAM 4GB) zum Laufen zu bringen.
🎯 Kernkonzept
Die Einschränkung der bestehenden BitNet (1,58 Bit), die "Neulernen erforderlich" war, wird aufgehoben. Durch Post-Training Quantization (PTQ) und Adaptive Ternary Decomposition (ATD) wird es möglich, bestehende FP16-Modelle dynamisch zu quantisieren und auszuführen.
📅 Entwicklungsphasen
Phase 1: Die Brücke (Python-Tools & Datenlayout)
Ziel: Bestehende Modelle in "N Basen" zu zerlegen und in einem GPU-optimierten Format zu speichern.
🔧 Implementierung:
Converter (convert_adaptive.py): Implementierung eines Gewichtszersetzungsalgorithmus mit der Greedy Residual-Methode.
Interleaved Packing: Um die Inferenzgeschwindigkeit zu priorisieren, wird das weight_packed-Format verwendet, bei dem [w0, w1, w2] parameterweise interleaved angeordnet sind.
Legacy Support: Datenlayout, das die Kompatibilität mit bestehenden BitNet-Modellen (N=1) aufrechterhält.
...

Top
Ranking
Favoriten
