Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Группа Alibaba выпустила две модели с открытым исходным кодом вместе с Fun-Audio-Chat из семейства голосовых моделей Tongyi Fun, чтобы завершить стек голосового ИИ:
Fun-ASR (0.8B) - Устойчивое к шуму, многоязычное распознавание речи
Fun-CosyVoice 3 (0.5B TTS) - Выразительный синтез речи с нулевым клонированием голоса
Fun-ASR справляется с шумными реальными условиями, обеспечивая точную транскрипцию в реальном времени на нескольких языках.
Давайте разберем их👇
#TongyiFun
1/5
2/5 - Fun-ASR Подробности:
Открытая версия Fun-ASR 0.8B создана для реальных условий с надежной обработкой шума и поддержкой нескольких языков.
*(Примечание: Более крупные закрытые версии также доступны для массового развертывания)*
Ключевые особенности:
- Обрабатывает шумные среды (кафе, улицы, офисы)
- Поддержка нескольких языков
- Транскрипция в реальном времени
- Высокая точность на различных акцентах
Сценарии использования:
- Транскрипция встреч
- Многоязычные колл-центры
- Субтитры в реальном времени
- Системы голосовых команд
3/5 - Fun-CosyVoice 3:
Модель TTS с открытым исходным кодом 0.5B обеспечивает более быструю и выразительную генерацию текста в речь.
(Примечание: Более крупные версии с закрытым исходным кодом также доступны как основное развертывание)
Ключевые особенности:
- Клонирование голоса без обучения на коротких аудиосэмплах
- Генерация голоса на разных языках
- Несколько стилей речи и эмоций
- Естественная просодия и интонация
Сценарии использования:
- Озвучивание аудиокниг
- Генерация озвучки
- Локализация контента
- Синтез голосов персонажей
90
Топ
Рейтинг
Избранное
