Bit-TTT-Engine revolucionará el sector. Hasta ahora, estábamos en un estado donde "solo funcionaban los LLM creados con Bit-TTT-Engine → No hay LLM", pero estamos creando una herramienta de conversión de 1.58 bits que descompone los LLM existentes (archivos safetensors como Llama-3) en precisión de bits variable (1.58bit x N). La imagen a continuación es un prototipo en Python, y muestra los resultados de un experimento realizado con una matriz gaussiana de 4096x4096 (equivalente a una capa de Llama-3). 1. Alta eficiencia de compresión: incluso utilizando tres bases (Base 3), se reduce a aproximadamente el 30% del tamaño en comparación con FP16 (32MB). 2. Reducción de errores: con una descomposición en tres etapas, el error (RMSE) se ha reducido a aproximadamente 1/4 del valor inicial. 3. Viabilidad: el prototipo en Python funciona rápidamente, y la conversión de todo Llama-3 es factible en un tiempo razonable. A partir de estos resultados, podemos concluir que si el motor Rust soporta "suma de bases de longitud variable", es técnicamente posible operar modelos de clase Llama-3 con 4GB de VRAM con alta precisión. A continuación, la hoja de ruta. --- 🚀 Hoja de Ruta del Proyecto: Fase 10.5 (Descomposición Adaptativa) Misión: Hacer funcionar modelos de clase Llama-3 (8B) en GPU de consumo (VRAM 4GB) a "velocidades y precisiones prácticas". 🎯 Concepto Central Eliminar la "necesidad de reentrenamiento" que era una limitación del BitNet existente (1.58bit). A través de la cuantización post-entrenamiento (PTQ) y la Descomposición Ternaria Adaptativa (ATD), se permitirá la cuantización dinámica y ejecución de modelos FP16 existentes. 📅 Fases de Desarrollo Fase 1: El Puente (Herramientas de Python y Diseño de Datos) Objetivo: Descomponer modelos existentes en "N bases" y almacenarlos en un formato optimizado para GPU. 🔧 Implementación: Convertidor (convert_adaptive.py): Implementación de un algoritmo de descomposición de pesos utilizando el método Greedy Residual. Empaquetado Intercalado: Priorizando la velocidad de inferencia, se adopta un formato weight_packed donde [w0, w1, w2] se intercalan a nivel de parámetros. Soporte Legado: Diseño de datos que mantiene la compatibilidad con modelos BitNet existentes (N=1). ...