Группа Alibaba выпустила две модели с открытым исходным кодом вместе с Fun-Audio-Chat из семейства голосовых моделей Tongyi Fun, чтобы завершить стек голосового ИИ: Fun-ASR (0.8B) - Устойчивое к шуму, многоязычное распознавание речи Fun-CosyVoice 3 (0.5B TTS) - Выразительный синтез речи с нулевым клонированием голоса Fun-ASR справляется с шумными реальными условиями, обеспечивая точную транскрипцию в реальном времени на нескольких языках. Давайте разберем их👇 #TongyiFun 1/5
2/5 - Fun-ASR Подробности: Открытая версия Fun-ASR 0.8B создана для реальных условий с надежной обработкой шума и поддержкой нескольких языков. *(Примечание: Более крупные закрытые версии также доступны для массового развертывания)* Ключевые особенности: - Обрабатывает шумные среды (кафе, улицы, офисы) - Поддержка нескольких языков - Транскрипция в реальном времени - Высокая точность на различных акцентах Сценарии использования: - Транскрипция встреч - Многоязычные колл-центры - Субтитры в реальном времени - Системы голосовых команд
3/5 - Fun-CosyVoice 3: Модель TTS с открытым исходным кодом 0.5B обеспечивает более быструю и выразительную генерацию текста в речь. (Примечание: Более крупные версии с закрытым исходным кодом также доступны как основное развертывание) Ключевые особенности: - Клонирование голоса без обучения на коротких аудиосэмплах - Генерация голоса на разных языках - Несколько стилей речи и эмоций - Естественная просодия и интонация Сценарии использования: - Озвучивание аудиокниг - Генерация озвучки - Локализация контента - Синтез голосов персонажей
90