DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Bit-TTT-Engine va révolutionner le secteur. Jusqu'à présent, nous étions dans un état où "seuls les LLM créés avec Bit-TTT-Engine fonctionnaient → pas de LLM". Nous allons créer un outil de conversion en précision de bits variable (1,58 bit x N) pour décomposer les LLM existants (fichiers safetensors comme Llama-3). L'image ci-dessous montre les résultats d'une expérience réalisée avec un prototype Python sur une matrice gaussienne de 4096x4096 (équivalente à une couche de Llama-3). 1. Haute efficacité de compression : même en utilisant trois bases (Base 3), nous sommes parvenus à une taille d'environ 30 % par rapport à FP16 (32 Mo). 2. Réduction des erreurs : avec une décomposition en trois étapes, l'erreur (RMSE) a été réduite à environ 1/4 de la valeur initiale. 3. Faisabilité : le prototype en Python fonctionne rapidement, et la conversion de l'ensemble de Llama-3 est réalisable dans un temps suffisamment réaliste. À partir de ces résultats, nous pouvons conclure que si le moteur Rust prend en charge "l'addition de base de longueur variable", il est techniquement possible de faire fonctionner des modèles de classe Llama-3 avec une précision élevée sur 4 Go de VRAM. Voici la feuille de route. --- 🚀 Feuille de route du projet : Phase 10.5 (Décomposition adaptative) Mission : faire fonctionner des modèles de classe Llama-3 (8B) sur des GPU grand public (VRAM 4 Go) à "vitesse et précision pratiques". 🎯 Concept central Éliminer la contrainte de "nécessité de réapprentissage" imposée par le BitNet existant (1,58 bit). Grâce à la quantification post-apprentissage (PTQ) et à la décomposition ternaire adaptative (ATD), rendre les modèles FP16 existants dynamiquement quantifiables et exécutables. 📅 Phases de développement Phase 1 : Le Pont (Outils Python & Disposition des données) Objectif : décomposer les modèles existants en "N bases" et les enregistrer dans un format optimisé pour le GPU. 🔧 Mise en œuvre : Convertisseur (convert_adaptive.py) : mise en œuvre d'un algorithme de décomposition des poids utilisant la méthode Greedy Residual. Emballage entrelacé : pour prioriser la vitesse d'inférence, adoption d'un format weight_packed où [w0, w1, w2] sont disposés par unité de paramètre. Support hérité : conception des données maintenant la compatibilité avec les modèles BitNet existants (N=1). ...

Meilleurs

Classement

Favoris