Революціонізуйте Bit-TTT-Engine. До цього часу це був стан, коли «можуть запускатися лише LLM, створені на Bit-TTT-Engine→ і LLM немає», але ми створимо [інструмент конвертації 1,58 біт], який розкладає існуючі LLM (файли safetensor, такі як Llama-3) на змінну бітову точність (1,58 біт x N). Зображення нижче — прототип Python з гауссівською матрицею розміром 4096x4096 (розміром одного шару Llama-3). 1. Висока ефективність стиснення: Навіть із трьома основами (Base 3) це близько 30% від розміру порівняно з FP16 (32MB). 2. Зменшення помилок: У трьохетапному розкладі похибка (RMSE) зменшувалася приблизно до 1/4 початкового значення. 3. Виконуваність: Прототипи в Python виконуються швидко, і вся конвертація Llama-3 можлива за досить реалістичний час. З цього результату можна визначити, що мета запуску моделі класу Llama-3 з 4GB VRAM з високою точністю технічно здійсненна, якщо рушій Rust підтримує «додавання основ змінної довжини». Нижче наведено дорожню карту. --- 🚀 Дорожня карта проєкту: Фаза 10.5 (Адаптивна декомпозиція) Місія: Запускати модель класу Llama-3 (8B) з споживчою відеокартою (4GB VRAM) на «практичній швидкості та точності». 🎯 Основна концепція Усунуто «необхідність перенавчання», яка була обмеженням існуючого BitNet (1.58bit). Квантування після навчання (PTQ) та адаптивна тернарна декомпозиція (ATD) динамічно квантують і виконувані існуючі моделі FP16. 📅 Етапи розробки Фаза 1: Міст (Python Tooling and Data Layout) Мета: Розкласти існуючі моделі на «N-бази» та зберігати їх у форматі, оптимізованому для GPU. 🔧 Реалізація: Перетворювач (convert_adaptive.py): Реалізація алгоритму зваженої декомпозиції за допомогою методу Greedy Residual. Interleaved Packing: формат weight_packed, який надає пріоритет швидкості висновку та інтерліву [w0, w1, w2] на основі параметрів за параметрами. Підтримка спадщини: Дизайн даних, який підтримує сумісність із існуючими моделями BitNet (N=1). ...