مختبر تونغيي لمجموعة علي بابا هو نموذج Fun-Audio-Chat-8B مفتوح المصدر من عائلة نماذج الصوت Tongyi Fun - نموذج صوت تحويل الكلام إلى كلام (S2S) يستخدم بطاقة رسومات أقل بنسبة 50٪ مع فهم النبرة العاطفية دون تسميات صريحة. على عكس خطوط أنابيب ASR→LLM→TTS التقليدية، يعالج S2S الصوت مباشرة، محافظا على النغمة والعاطفة والنغمة مع تأخير أقل. تعاطف الصوت: يكتشف المشاعر من النبرة، والسرعة، والتوقفات، والنبرة - وليس فقط الكلمات. نفس الجملة التي تقول سعيد مقابل حزين تحصل على رد مختلف. مزيد من التفاصيل👇 #TongyiFun 1/5
2/5 - تعليم الخطابة يلي: يدعم Fun-Audio-Chat اتباع تعليمات الكلام، مما يسمح للمستخدمين بالتحكم في خصائص توليد الكلام مثل العاطفة، أسلوب الحديث، السرعة، النغمة، ومستوى الصوت من خلال أوامر صوتية طبيعية. أمثلة: → "تحدث كمعلق رياضيات إلكترونية متحمس" → "قلها بصوت غاضب، عال، عالي النبرة" → "ابدأ بالملل، ثم ازداد حماسك" تمثيل الأدوار، التحكم الصوتي، التحولات العاطفية - كلها مدعومة.
3/5 - الابتكار الأساسي: معظم نماذج الصوت تعمل بمعدلات إطارات تتراوح بين 12.5 و25 هرتز. تستخدم Fun-Audio-Chat تمثيلات كلامية مزدوجة الدقة للوصول إلى 5Hz. النتيجة: → ~50٪ ساعات أقل من وحدة معالجة الرسوميات → نفس جودة الكلام → زمن الاستجابة المنخفض هذه هي نماذج S2S الرائدة في الكفاءة المطلوبة.
4/5 - استدعاء دالة الكلام: نفذ المهام من خلال أوامر صوتية طبيعية: "اضبط مؤقت تركيز لمدة 25 دقيقة" أو "التنقل من حرم علي بابا إلى حديقة هانغتشو" SOTA بين نماذج ~8B على OpenAudioBench وVoiceBench وUltraEval-Audio من أجل: → تعاطف الصوت → QA المنطوق → فهم الصوت → استدعاء الدوال → اتباع التعليمات
‏‎115‏