Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Revolucionar Bit-TTT-Engine. Hasta ahora, era un estado de "solo los LLM creados con Bit-TTT-Engine pueden ejecutarse→ y no existen LLMs", pero vamos a crear una [herramienta de conversión de 1,58 bits] que descompone los LLMs existentes (archivos safetensors como Llama-3) en precisión variable de bits (1,58 bits x N). La imagen de abajo es un prototipo de Python con una matriz Gaussiana de 4096x4096 (el tamaño de una capa de Llama-3). 1. Alta eficiencia de compresión: Incluso con tres bases (Base 3), es aproximadamente el 30% del tamaño comparado con FP16 (32MB). 2. Reducción del error: En la descomposición en tres pasos, el error (RMSE) se redujo a aproximadamente 1/4 del valor inicial. 3. Ejecutabilidad: Los prototipos en Python se ejecutan rápido y toda la conversión a Llama-3 es posible en un tiempo suficientemente realista. A partir de este resultado, se puede determinar que el objetivo de ejecutar un modelo clase Llama-3 con 4GB de VRAM con alta precisión es técnicamente factible si el motor Rust soporta "adición de base de longitud variable". A continuación se presenta la hoja de ruta. --- 🚀 Hoja de ruta del proyecto: Fase 10.5 (Descomposición Adaptativa) Misión: Ejecutar un modelo de la clase Llama-3 (8B) con una GPU de consumo (4GB de VRAM) a "velocidad y precisión prácticas". 🎯 Concepto central Eliminó la "necesidad de reaprender" que era una limitación del BitNet existente (1,58 bits). La cuantización post-aprendizaje (PTQ) y la descomposición ternaria adaptativa (ATD) cuantizan dinámicamente y ejecutan modelos FP16 existentes. 📅 Fases de desarrollo Fase 1: El puente (Herramientas y Diseño de Datos en Python) Objetivo: Descomponer modelos existentes en "N-bases" y almacenarlos en un formato optimizado para GPU. 🔧 Implementación: Convertidor (convert_adaptive.py): Implementación de un algoritmo de descomposición ponderada usando el método Greedy Residual. Empaquetado entrelazado: Un formato weight_packed que prioriza la velocidad de inferencia y el entrelazado [w0, w1, w2] en función de parámetros por parámetros. Soporte heredado: Diseño de datos que mantiene la compatibilidad con modelos BitNet existentes (N=1). ...

Populares

Ranking

Favoritas