Revolucione o Bit-TTT-Engine. Até agora, era um estado de "apenas LLMs criados com Bit-TTT-Engine podem rodar→ e não existem LLMs", mas vamos criar uma [ferramenta de conversão de 1,58 bits] que decompõe LLMs existentes (arquivos safetensors como o Llama-3) em precisão variável de bits (1,58bit x N). A imagem abaixo é um protótipo Python com uma matriz Gaussiana 4096x4096 (o tamanho de uma camada de Llama-3). 1. Alta eficiência de compressão: Mesmo com três bases (Base 3), é cerca de 30% do tamanho em comparação com o FP16 (32MB). 2. Redução do erro: Na decomposição em três etapas, o erro (RMSE) foi reduzido para cerca de 1/4 do valor inicial. 3. Executabilidade: Protótipos em Python rodam rápido, e toda a conversão para Llama-3 é possível em um tempo realista o suficiente. A partir desse resultado, pode-se determinar que o objetivo de rodar um modelo da classe Llama-3 com 4GB de VRAM com alta precisão é tecnicamente viável se o motor Rust suportar "adição de base de comprimento variável". A seguir está o roteiro. --- 🚀 Roteiro do Projeto: Fase 10.5 (Decomposição Adaptativa) Missão: Rodar um modelo da classe Llama-3 (8B) com uma GPU de consumo (4GB de VRAM) em "velocidade e precisão práticas". 🎯 Conceito Central Eliminou a "necessidade de reaprender", que era uma limitação do BitNet existente (1,58 bit). Quantização pós-aprendizagem (PTQ) e decomposição ternária adaptativa (ATD) quantizam dinamicamente e executam modelos FP16 existentes. 📅 Fases de Desenvolvimento Fase 1: A Ponte (Ferramentas e Layout de Dados em Python) Objetivo: Decompor modelos existentes em "N-bases" e armazená-los em um formato otimizado para GPU. 🔧 Implementação: Converter (convert_adaptive.py): Implementação de um algoritmo de decomposição ponderada usando o método Greedy Residual. Empacotamento Intercalado: Um formato weight_packed que prioriza a velocidade de inferência e o intercalado [w0, w1, w2] em base a parâmetro a parâmetro. Suporte Legado: Projeto de dados que mantém compatibilidade com modelos BitNet existentes (N=1). ...