Лабораторія Tongyi від Alibaba Group також випустила дві моделі з відкритим кодом разом із Fun-Audio-Chat із сімейства голосових моделей Tongyi Fun, щоб доповнити стек голосового AI: Fun-ASR (0.8B) — шумостійке, багатомовне розпізнавання мовлення Fun-CosyVoice 3 (0.5B TTS) — експресивне перетворення тексту в мову з нульовим блокуванням голосу Fun-ASR працює з реальними шумними середовищами, забезпечуючи точну транскрипцію в реальному часі кількома мовами. Давайте розберемо їх👇 #TongyiFun 1/5
2/5 - Деталі Fun-ASR: Версія Fun-ASR з відкритим кодом 0.8B створена для реальних умов із надійною обробкою шуму та багатомовною підтримкою. *(Примітка: більші закриті версії також доступні як основний варіант)* Ключові особливості: - Працює з шумними середовищами (кафе, вулиці, офіси) - Підтримка багатомовної роботи - Транскрипція в реальному часі - Висока точність на різних акцентах Сценарії використання: - Транскрипція зустрічі - Багатомовні кол-центри - Субтитри в реальному часі - Системи голосових команд
3/5 - Fun-CosyVoice 3: Відкрита модель TTS з 0,5B забезпечує швидшу та більш виразну генерацію тексту в мовлення. (Примітка: більші закриті версії також доступні як основний варіант) Ключові особливості: - Нульове клонування голосу з коротких аудіосемплів - Крослінгвальна генерація голосу - Множинні стилі мовлення та емоції - Природна просодія та інтонація Сценарії використання: - Озвучення аудіокниги - Покоління озвучення - Локалізація контенту - Синтез голосу персонажів
87