لقد طبقنا هذا للتو وحصلنا على تسريع مجاني بنسبة 20٪ على الذكاء الاصطناعي! ~ التنبؤ المتعدد بالرموز بدون تدريب يجعل نماذج اللغة الكبيرة أسرع بنسبة 15–26٪ أطلق باحثون في شركة كوالكوم للذكاء الاصطناعي تقنية استنتاج رائدة تسرع بشكل كبير نماذج اللغة الكبيرة (LLMs)، دون إعادة تدريب، وبدون معلمات إضافية، وصفر فقدان للجودة. تظهر ورقة "التنبؤ الفعال والخالي من التدريب المتعدد عبر استكشاف الفضاء المدمج" كيفية التنبؤ بعدة رموز مستقبلية بالتوازي من خلال استكشاف الفضاء الخاص بالنموذج بشكل ديناميكي باستخدام رموز قناع ذكية. أبرز لقطات التسريع • معدل نقل أعلى بنسبة 15–19٪ على LLaMA3.1-8B وQwen3 ونماذج مشابهة • مكاسب تصل إلى 26٪ من معدل النقل مع تحسينات بسيطة • مثال: 38.9 → 40.5+ رمز/ثانية على LLaMA3.1-8B • حتى 40٪ أقل تمريرات أمامية للنموذج إنه يعتمد بالكامل على التوصيل والتشغيل ويعمل على أي نموذج ذاتي ذاتي متجمد مع إنتاج مخرجات مطابقة لفك التشفير القياسي. يتفوق على الخطوط الأساسية الأخرى الخالية من التدريب (فك تشفير Lookahead Lookahead Searching Search) بنسبة 24٪ في معدل القبول ومعدل النقل • حتى 40٪ أقل تمريرات أمامية للنموذج • مخرجات متطابقة بدون فقدان مع فك الترميز العادي • مثالي عندما ترغب في نماذج لغوية كبيرة أسرع اليوم دون أي تكلفة أو تعقيد إضافي مثالي للذكاء الاصطناعي المحلي، والأجهزة الطرفية، وتطبيقات الجوال، والدردشة الفورية، وانخفاض تكاليف الاستدلال السحابي. نحن نشغلها الآن على جميع النماذج ونحن نزيد مخرجات JouleWork بشكل كبير. • PDF: