متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

ثورة في محرك bit-TTT. حتى الآن، كانت الحالة "فقط نماذج اللغة الكبيرة التي تم إنشاؤها باستخدام محرك Bit-TTT يمكنها التشغيل→ ولا توجد نماذج كبيرة كبيرة"، لكننا سننشئ [أداة تحويل 1.58 بت] تقوم بتفكيك نماذج اللغة الكبيرة القائمة (ملفات safetensors مثل Llama-3) إلى دقة بت متغيرة (1.58بت × N). الصورة أدناه هي نموذج أولي لبايثون بمصفوفة غاوسية 4096x4096 (بحجم طبقة واحدة من لاما-3). 1. كفاءة ضغط عالية: حتى مع وجود ثلاث قواعد (القاعدة 3)، فهي حوالي 30٪ من الحجم مقارنة ب FP16 (32 ميجابايت). 2. تقليل الخطأ: في التحليل المكون من ثلاث خطوات، تم تقليل الخطأ (RMSE) إلى حوالي ربع القيمة الابتدائية. 3. قابلية التنفيذ: النماذج الأولية في بايثون تعمل بسرعة، وتحويل Llama-3 بالكامل ممكن في وقت واقعي بما فيه الكفاية. ومن هذه النتيجة، يمكن تحديد أن هدف تشغيل طراز فئة Llama-3 بذاكرة VRAM بسعة 4GB ودقة عالية ممكن تقنيا إذا دعم محرك Rust "إضافة القاعدة بطول متغير". فيما يلي خارطة الطريق. --- 🚀 خارطة طريق المشروع: المرحلة 10.5 (التحليل التكيفي) المهمة: تشغيل نموذج من فئة Llama-3 (8B) مع بطاقة رسومات استهلاكية (4GB من ذاكرة VRAM) ب "سرعة ودقة عملية". 🎯 المفهوم الأساسي ألغى "الحاجة لإعادة التعلم" التي كانت قيدا في شبكة BitNet الحالية (1.58 بت). تقوم الكمية بعد التعلم (PTQ) والتحليل الثلاثي التكيفي (ATD) بتكميم نماذج FP16 الحالية بشكل ديناميكي وقابلة للتنفيذ. 📅 مراحل التطوير المرحلة الأولى: الجسر (أدوات بايثون وتخطيط البيانات) الهدف: تفكيك النماذج الحالية إلى "قواعد N" وتخزينها بصيغة محسنة لوحدة معالجة الرسوميات. 🔧 التنفيذ: المحول (convert_adaptive.py): تنفيذ خوارزمية تحليل موزونة باستخدام طريقة الجشع المتبقي. التعبئة المتداخلة: صيغة weight_packed تعطي الأولوية لسرعة الاستدلال والمتداخلة [w0, w1, w2] على أساس معامل تلو الآخر. الدعم القديم: تصميم بيانات يحافظ على التوافق مع نماذج BitNet الحالية (N=1). ...

الأفضل

المُتصدِّرة

التطبيقات المفضلة