Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bit-TTT-Engine revolucionará el sector.
Hasta ahora, estábamos en un estado donde "solo funcionaban los LLM creados con Bit-TTT-Engine → No hay LLM", pero estamos creando una herramienta de conversión de 1.58 bits que descompone los LLM existentes (archivos safetensors como Llama-3) en precisión de bits variable (1.58bit x N).
La imagen a continuación es un prototipo en Python, y muestra los resultados de un experimento realizado con una matriz gaussiana de 4096x4096 (equivalente a una capa de Llama-3).
1. Alta eficiencia de compresión: incluso utilizando tres bases (Base 3), se reduce a aproximadamente el 30% del tamaño en comparación con FP16 (32MB).
2. Reducción de errores: con una descomposición en tres etapas, el error (RMSE) se ha reducido a aproximadamente 1/4 del valor inicial.
3. Viabilidad: el prototipo en Python funciona rápidamente, y la conversión de todo Llama-3 es factible en un tiempo razonable.
A partir de estos resultados, podemos concluir que si el motor Rust soporta "suma de bases de longitud variable", es técnicamente posible operar modelos de clase Llama-3 con 4GB de VRAM con alta precisión.
A continuación, la hoja de ruta.
---
🚀 Hoja de Ruta del Proyecto: Fase 10.5 (Descomposición Adaptativa)
Misión: Hacer funcionar modelos de clase Llama-3 (8B) en GPU de consumo (VRAM 4GB) a "velocidades y precisiones prácticas".
🎯 Concepto Central
Eliminar la "necesidad de reentrenamiento" que era una limitación del BitNet existente (1.58bit). A través de la cuantización post-entrenamiento (PTQ) y la Descomposición Ternaria Adaptativa (ATD), se permitirá la cuantización dinámica y ejecución de modelos FP16 existentes.
📅 Fases de Desarrollo
Fase 1: El Puente (Herramientas de Python y Diseño de Datos)
Objetivo: Descomponer modelos existentes en "N bases" y almacenarlos en un formato optimizado para GPU.
🔧 Implementación:
Convertidor (convert_adaptive.py): Implementación de un algoritmo de descomposición de pesos utilizando el método Greedy Residual.
Empaquetado Intercalado: Priorizando la velocidad de inferencia, se adopta un formato weight_packed donde [w0, w1, w2] se intercalan a nivel de parámetros.
Soporte Legado: Diseño de datos que mantiene la compatibilidad con modelos BitNet existentes (N=1).
...

Parte superior
Clasificación
Favoritos
