Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Revolucione o Bit-TTT-Engine.
Até agora, era um estado de "apenas LLMs criados com Bit-TTT-Engine podem rodar→ e não existem LLMs", mas vamos criar uma [ferramenta de conversão de 1,58 bits] que decompõe LLMs existentes (arquivos safetensors como o Llama-3) em precisão variável de bits (1,58bit x N).
A imagem abaixo é um protótipo Python com uma matriz Gaussiana 4096x4096 (o tamanho de uma camada de Llama-3).
1. Alta eficiência de compressão: Mesmo com três bases (Base 3), é cerca de 30% do tamanho em comparação com o FP16 (32MB).
2. Redução do erro: Na decomposição em três etapas, o erro (RMSE) foi reduzido para cerca de 1/4 do valor inicial.
3. Executabilidade: Protótipos em Python rodam rápido, e toda a conversão para Llama-3 é possível em um tempo realista o suficiente.
A partir desse resultado, pode-se determinar que o objetivo de rodar um modelo da classe Llama-3 com 4GB de VRAM com alta precisão é tecnicamente viável se o motor Rust suportar "adição de base de comprimento variável".
A seguir está o roteiro.
---
🚀 Roteiro do Projeto: Fase 10.5 (Decomposição Adaptativa)
Missão: Rodar um modelo da classe Llama-3 (8B) com uma GPU de consumo (4GB de VRAM) em "velocidade e precisão práticas".
🎯 Conceito Central
Eliminou a "necessidade de reaprender", que era uma limitação do BitNet existente (1,58 bit). Quantização pós-aprendizagem (PTQ) e decomposição ternária adaptativa (ATD) quantizam dinamicamente e executam modelos FP16 existentes.
📅 Fases de Desenvolvimento
Fase 1: A Ponte (Ferramentas e Layout de Dados em Python)
Objetivo: Decompor modelos existentes em "N-bases" e armazená-los em um formato otimizado para GPU.
🔧 Implementação:
Converter (convert_adaptive.py): Implementação de um algoritmo de decomposição ponderada usando o método Greedy Residual.
Empacotamento Intercalado: Um formato weight_packed que prioriza a velocidade de inferência e o intercalado [w0, w1, w2] em base a parâmetro a parâmetro.
Suporte Legado: Projeto de dados que mantém compatibilidade com modelos BitNet existentes (N=1).
...

Melhores
Classificação
Favoritos
