Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bit-TTT-Engine произведет революцию.
Ранее существовало состояние "Работает только LLM, созданный с помощью Bit-TTT-Engine → Нет LLM", но мы создадим инструмент преобразования 【1.58-bit преобразователь】, который разбивает существующие LLM (файлы safetensors, такие как Llama-3) на переменную битовую точность (1.58bit x N).
Следующее изображение - это прототип на Python, и это результаты эксперимента с гауссовой матрицей 4096x4096 (эквивалент одного слоя Llama-3).
1. Высокая эффективность сжатия: даже при использовании трех базисов (Base 3) размер составляет примерно 30% от FP16 (32MB).
2. Снижение ошибок: с помощью трехступенчатого разложения ошибка (RMSE) уменьшилась до примерно 1/4 от начального значения.
3. Реализуемость: прототип на Python работает быстро, и преобразование всего Llama-3 возможно за достаточно разумное время.
Из этих результатов можно сделать вывод, что если на стороне Rust-движка будет поддержка "переменной длины сложения базисов", то цель запустить модели класса Llama-3 с высокой точностью на 4GB VRAM технически вполне достижима.
Ниже представлен дорожная карта.
---
🚀 Дорожная карта проекта: Фаза 10.5 (Адаптивное разложение)
Миссия: Запустить модели класса Llama-3 (8B) на потребительских GPU (VRAM 4GB) с "практической скоростью и точностью".
🎯 Основная концепция
Устранение ограничения существующего BitNet (1.58bit) в виде "необходимости повторного обучения". Благодаря постобучающей квантизации (PTQ) и адаптивному тернарному разложению (ATD) существующие модели FP16 могут быть динамически квантизированы и выполнены.
📅 Этапы разработки
Фаза 1: Мост (Инструменты Python и макет данных)
Цель: Разложить существующие модели на "N базисов" и сохранить в формате, оптимизированном для GPU.
🔧 Реализация:
Конвертер (convert_adaptive.py): Реализация алгоритма разложения весов с использованием жадного остаточного метода.
Перемешанная упаковка: Приоритет на скорость вывода, использование формата weight_packed с интерливированным размещением [w0, w1, w2] по единицам параметров.
Поддержка наследия: Дизайн данных, сохраняющий совместимость с существующими моделями BitNet (N=1).
...

Топ
Рейтинг
Избранное
