متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

اليوم، نطلق أكبر طراز LFM2 لدينا: LFM2-24B-A2B 🐘 > 24 مليار معلمة إجمالية > 2.3 مليار نشط لكل رمز > مبنية على بنية LFM2 الهجينة والواعية بالأجهزة لدينا يجمع بين تصميم LFM2 السريع والفعال للذاكرة مع إعداد مزيج من الخبراء، بحيث يتم تفعيل كل تشغيل فقط 2.3 مليار معلمة. والنتيجة: كفاءة ممتازة، واستدلال سريع للحواف، وتحجيم لوغاريتمي خطي متوقع، كل ذلك في بصمة MoE نشطة بحجم 32GB. 🧵

مع هذا الإصدار، تمتد عائلة LFM2 على ما يقارب مرتين: من LFM2-350M إلى LFM2-24B-A2B. كل خطوة في الحجم جلبت مكاسب جودة ثابتة في المعايير القياسية. صممنا LFM2-24B-A2B لتناسب 32 جيجابايت من الذاكرة العشوائية، مما يجعله قابلا للتشغيل على أجهزة اللابتوب الاستهلاكية وأجهزة الكمبيوتر المكتبية المزودة بمعالج رسومات مدمج (iGPU) ووحدة معالجة عصبية مخصصة (NPU). > LFM2-24B-A2B توسع عائلة LFM2 من 350M → 24B > ما يقارب مرتبة من الحجم مع تحسينات جودة متسقة ولوغاريتمية خطية عبر المعايير

وصفة التكبير: اذهب أعمق. أضف خبراء. حافظ على المسار النشط البسيط. قمنا بتوسيع LFM2-24B-A2B من خلال التعمق أعمق (24→40 طبقة) ومضاعفة عدد الخبراء (32→64 لكل كتلة MoE)، مع الحفاظ على الحجم المخفي (2048)، وتوجيه الأربعة الأوائل، ونسبة الانتباه إلى الانتباه ثابتة 1:3. > إجمالي البارامات ينمو 3× (8.3B→24B) > البارامات النشطة تنمو فقط ~1.5× (1.5B→2.3B) تكلفة الاستدلال تتبع المسار النشط (وليس إجمالي عدد المعلمات) مع الحفاظ على تزامن الكمون والطاقة مع قيود النشر الواقعية. السعة تتسب. يبقى حساب كل رمز رشيقا.

قمنا بشحنه كنموذج تدريب تقليدي (بدون آثار منطقية) باستخدام نظام خفيف الوزن بعد التدريب. عبر الطريق: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 الجودة تتحسن بشكل لوغاريتمي خطيا من 350M → 24B. يؤكد هذا النطاق الذي يقارب 100× معامل سلوك التوسع المتوقع لمعمارية LFM2 الهجينة، دون تأثير سقف النموذج الصغير.

يأتي LFM2-24B-A2B بدعم في الصباح الصفر عبر llama.cpp، vLLM، وSGLang، المعالج المركزي أو GPU الجاهز، مع تكميات GGUF (Q4_0، Q4_K_M، Q5_K_M، Q6_K، Q8_0، F16). على وحدة المعالجة المركزية (AMD Ryzen AI Max+ 395، Q4_K_M)، يحافظ على سرعة ~93 توك/ثانية في سياق 8K، متفوقا على نماذج MoE ذات الحجم المماثل مع الحفاظ على مقياس قوي للسياق الطويل.

على وحدة المعالجة المركزية (AMD Ryzen AI Max+ 395، Q4_K_M، llama.cpp)، يحافظ LFM2-24B-A2B على معدل تعبئة مسبق قوي عبر سياقات 1K→8K (~1,132 توك/ث عند 8K)، مع الحفاظ على المنافسة مع نماذج MoE ذات الحجم المماثل. على وحدة معالجة الرسوميات (H100 SXM5، SGLang/vLLM)، يظهر توسع إنتاجية مفضل في الإنتاجية تحت خدمة عالية التزامن الواقعية، وهو أمر حيوي لتوزيع التكاليف وأحمال عمل RLVR.

على وحدة معالجة الرسومات (H100 SXM5، vLLM)، يتدرج LFM2-24B-A2B إلى ~26.8 ألف إجمالي معدل نقل (tok/s) عند 1024 طلبا متزامنا (1024 رمز إدخال أقصى / 512 رمز إخراج كحد أقصى)، متفوقا على نماذج MoE ذات الحجم المماثل تحت التجميع المستمر. يقاس باستخدام تعبئة مسبق متداخلة واقعية + فك تشفير — مصمم لأحمال العمل على نطاق الإنتاج والعمل في التعلم الواقعي.

‏‎62‏

الأفضل

المُتصدِّرة

التطبيقات المفضلة