المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أطلقت علي بابا أربعة نماذج صغيرة من كوين 3.5 مع خدعة مستعارة من طراز 397B: الاهتمام الهجين بشبكة دلتا نت.
ثلاث طبقات من الانتباه الخطي مقابل كل طبقة من الانتباه الكامل.
تتعامل الطبقات الخطية مع العمليات الحسابية الروتينية مع استخدام مستمر للذاكرة. طبقات الانتباه الكاملة تطلق فقط عندما تكون الدقة مهمة.
تحافظ هذه النسبة 3:1 على ثبات الذاكرة بينما تبقى الجودة عالية، ولهذا السبب حتى نموذج 0.8B يدعم نافذة سياق مكونة من 262,000 رمز.
كل نموذج يتعامل مع النصوص والصور والفيديو بشكل أصلي.
لم يتم تثبيت أي محول بعد ذلك. يستخدم مشفر الرؤية الالتفافات ثلاثية الأبعاد لالتقاط الحركة في الفيديو، ثم يدمج ميزات من عدة طبقات بدلا من الطبقة النهائية فقط.
يتفوق 9B على GPT-5-Nano بفارق 13 نقطة في الفهم متعدد الوسائط، و17 نقطة في الرياضيات البصرية، و30 نقطة في تحليل المستندات. يعمل 0.8B على الهاتف ويعالج الفيديو. يتناسب 4B مع 8GB من ذاكرة VRAM ويعمل كعامل متعدد الوسائط. جميع الأربعة من Apache 2.0.
إذا استمر هذا الهيكل، فإن مساحة النماذج الصغيرة أصبحت فقط سباق قدرات بدلا من سباق حجم.
قبل عام، كان تشغيل نموذج متعدد الوسائط محليا يعني نموذج 13B+ وبطاقة رسومات قوية.
الآن نموذج 4B بسياق 262K يتعامل مع النصوص والصور والفيديو من أجهزة المستهلك.
الفجوة بين النماذج الطرفية والنماذج الرئيسية تقترب أسرع من الفجوة بين السفن الرائدة والبشر.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
