Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Revolucionar Bit-TTT-Engine.
Hasta ahora, era un estado de "solo los LLM creados con Bit-TTT-Engine pueden ejecutarse→ y no existen LLMs", pero vamos a crear una [herramienta de conversión de 1,58 bits] que descompone los LLMs existentes (archivos safetensors como Llama-3) en precisión variable de bits (1,58 bits x N).
La imagen de abajo es un prototipo de Python con una matriz Gaussiana de 4096x4096 (el tamaño de una capa de Llama-3).
1. Alta eficiencia de compresión: Incluso con tres bases (Base 3), es aproximadamente el 30% del tamaño comparado con FP16 (32MB).
2. Reducción del error: En la descomposición en tres pasos, el error (RMSE) se redujo a aproximadamente 1/4 del valor inicial.
3. Ejecutabilidad: Los prototipos en Python se ejecutan rápido y toda la conversión a Llama-3 es posible en un tiempo suficientemente realista.
A partir de este resultado, se puede determinar que el objetivo de ejecutar un modelo clase Llama-3 con 4GB de VRAM con alta precisión es técnicamente factible si el motor Rust soporta "adición de base de longitud variable".
A continuación se presenta la hoja de ruta.
---
🚀 Hoja de ruta del proyecto: Fase 10.5 (Descomposición Adaptativa)
Misión: Ejecutar un modelo de la clase Llama-3 (8B) con una GPU de consumo (4GB de VRAM) a "velocidad y precisión prácticas".
🎯 Concepto central
Eliminó la "necesidad de reaprender" que era una limitación del BitNet existente (1,58 bits). La cuantización post-aprendizaje (PTQ) y la descomposición ternaria adaptativa (ATD) cuantizan dinámicamente y ejecutan modelos FP16 existentes.
📅 Fases de desarrollo
Fase 1: El puente (Herramientas y Diseño de Datos en Python)
Objetivo: Descomponer modelos existentes en "N-bases" y almacenarlos en un formato optimizado para GPU.
🔧 Implementación:
Convertidor (convert_adaptive.py): Implementación de un algoritmo de descomposición ponderada usando el método Greedy Residual.
Empaquetado entrelazado: Un formato weight_packed que prioriza la velocidad de inferencia y el entrelazado [w0, w1, w2] en función de parámetros por parámetros.
Soporte heredado: Diseño de datos que mantiene la compatibilidad con modelos BitNet existentes (N=1).
...

Populares
Ranking
Favoritas
