Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Лабораторія Tongyi від Alibaba Group також випустила дві моделі з відкритим кодом разом із Fun-Audio-Chat із сімейства голосових моделей Tongyi Fun, щоб доповнити стек голосового AI:
Fun-ASR (0.8B) — шумостійке, багатомовне розпізнавання мовлення
Fun-CosyVoice 3 (0.5B TTS) — експресивне перетворення тексту в мову з нульовим блокуванням голосу
Fun-ASR працює з реальними шумними середовищами, забезпечуючи точну транскрипцію в реальному часі кількома мовами.
Давайте розберемо їх👇
#TongyiFun
1/5
2/5 - Деталі Fun-ASR:
Версія Fun-ASR з відкритим кодом 0.8B створена для реальних умов із надійною обробкою шуму та багатомовною підтримкою.
*(Примітка: більші закриті версії також доступні як основний варіант)*
Ключові особливості:
- Працює з шумними середовищами (кафе, вулиці, офіси)
- Підтримка багатомовної роботи
- Транскрипція в реальному часі
- Висока точність на різних акцентах
Сценарії використання:
- Транскрипція зустрічі
- Багатомовні кол-центри
- Субтитри в реальному часі
- Системи голосових команд
3/5 - Fun-CosyVoice 3:
Відкрита модель TTS з 0,5B забезпечує швидшу та більш виразну генерацію тексту в мовлення.
(Примітка: більші закриті версії також доступні як основний варіант)
Ключові особливості:
- Нульове клонування голосу з коротких аудіосемплів
- Крослінгвальна генерація голосу
- Множинні стилі мовлення та емоції
- Природна просодія та інтонація
Сценарії використання:
- Озвучення аудіокниги
- Покоління озвучення
- Локалізація контенту
- Синтез голосу персонажів
87
Найкращі
Рейтинг
Вибране
