Bit-TTT-Engine произведет революцию. Ранее существовало состояние "Работает только LLM, созданный с помощью Bit-TTT-Engine → Нет LLM", но мы создадим инструмент преобразования 【1.58-bit преобразователь】, который разбивает существующие LLM (файлы safetensors, такие как Llama-3) на переменную битовую точность (1.58bit x N). Следующее изображение - это прототип на Python, и это результаты эксперимента с гауссовой матрицей 4096x4096 (эквивалент одного слоя Llama-3). 1. Высокая эффективность сжатия: даже при использовании трех базисов (Base 3) размер составляет примерно 30% от FP16 (32MB). 2. Снижение ошибок: с помощью трехступенчатого разложения ошибка (RMSE) уменьшилась до примерно 1/4 от начального значения. 3. Реализуемость: прототип на Python работает быстро, и преобразование всего Llama-3 возможно за достаточно разумное время. Из этих результатов можно сделать вывод, что если на стороне Rust-движка будет поддержка "переменной длины сложения базисов", то цель запустить модели класса Llama-3 с высокой точностью на 4GB VRAM технически вполне достижима. Ниже представлен дорожная карта. --- 🚀 Дорожная карта проекта: Фаза 10.5 (Адаптивное разложение) Миссия: Запустить модели класса Llama-3 (8B) на потребительских GPU (VRAM 4GB) с "практической скоростью и точностью". 🎯 Основная концепция Устранение ограничения существующего BitNet (1.58bit) в виде "необходимости повторного обучения". Благодаря постобучающей квантизации (PTQ) и адаптивному тернарному разложению (ATD) существующие модели FP16 могут быть динамически квантизированы и выполнены. 📅 Этапы разработки Фаза 1: Мост (Инструменты Python и макет данных) Цель: Разложить существующие модели на "N базисов" и сохранить в формате, оптимизированном для GPU. 🔧 Реализация: Конвертер (convert_adaptive.py): Реализация алгоритма разложения весов с использованием жадного остаточного метода. Перемешанная упаковка: Приоритет на скорость вывода, использование формата weight_packed с интерливированным размещением [w0, w1, w2] по единицам параметров. Поддержка наследия: Дизайн данных, сохраняющий совместимость с существующими моделями BitNet (N=1). ...