المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
مختبر تونغيي لمجموعة علي بابا هو نموذج Fun-Audio-Chat-8B مفتوح المصدر من عائلة نماذج الصوت Tongyi Fun - نموذج صوت تحويل الكلام إلى كلام (S2S) يستخدم بطاقة رسومات أقل بنسبة 50٪ مع فهم النبرة العاطفية دون تسميات صريحة.
على عكس خطوط أنابيب ASR→LLM→TTS التقليدية، يعالج S2S الصوت مباشرة، محافظا على النغمة والعاطفة والنغمة مع تأخير أقل.
تعاطف الصوت: يكتشف المشاعر من النبرة، والسرعة، والتوقفات، والنبرة - وليس فقط الكلمات. نفس الجملة التي تقول سعيد مقابل حزين تحصل على رد مختلف.
مزيد من التفاصيل👇
#TongyiFun
1/5
2/5 - تعليم الخطابة يلي:
يدعم Fun-Audio-Chat اتباع تعليمات الكلام، مما يسمح للمستخدمين بالتحكم في خصائص توليد الكلام مثل العاطفة، أسلوب الحديث، السرعة، النغمة، ومستوى الصوت من خلال أوامر صوتية طبيعية.
أمثلة:
→ "تحدث كمعلق رياضيات إلكترونية متحمس"
→ "قلها بصوت غاضب، عال، عالي النبرة"
→ "ابدأ بالملل، ثم ازداد حماسك"
تمثيل الأدوار، التحكم الصوتي، التحولات العاطفية - كلها مدعومة.
3/5 - الابتكار الأساسي:
معظم نماذج الصوت تعمل بمعدلات إطارات تتراوح بين 12.5 و25 هرتز. تستخدم Fun-Audio-Chat تمثيلات كلامية مزدوجة الدقة للوصول إلى 5Hz.
النتيجة:
→ ~50٪ ساعات أقل من وحدة معالجة الرسوميات
→ نفس جودة الكلام
→ زمن الاستجابة المنخفض
هذه هي نماذج S2S الرائدة في الكفاءة المطلوبة.
4/5 - استدعاء دالة الكلام:
نفذ المهام من خلال أوامر صوتية طبيعية: "اضبط مؤقت تركيز لمدة 25 دقيقة" أو "التنقل من حرم علي بابا إلى حديقة هانغتشو"
SOTA بين نماذج ~8B على OpenAudioBench وVoiceBench وUltraEval-Audio من أجل:
→ تعاطف الصوت
→ QA المنطوق
→ فهم الصوت
→ استدعاء الدوال
→ اتباع التعليمات
115
الأفضل
المُتصدِّرة
التطبيقات المفضلة
