Группа Alibaba открыла исходный код Fun-Audio-Chat-8B из своей семейства голосовых моделей Tongyi Fun - модели голосового взаимодействия (S2S), которая использует на 50% меньше GPU, понимая эмоциональный тон без явных меток. В отличие от традиционных конвейеров ASR→LLM→TTS, S2S обрабатывает голос напрямую, сохраняя тон, эмоции и просодию с меньшей задержкой. Эмпатия голоса: определяет эмоции по тону, темпу, паузам и просодии - не только по словам. Одна и та же фраза, произнесенная с радостью и грустью, вызывает разную реакцию. Больше деталей👇 #TongyiFun 1/5
2/5 - Следование речевым инструкциям: Fun-Audio-Chat поддерживает следование речевым инструкциям, позволяя пользователям управлять атрибутами генерации речи, такими как эмоция, стиль речи, скорость, тон и громкость с помощью естественных голосовых команд. Примеры: → "Говори как взволнованный комментатор киберспорта" → "Скажи это сердитым, громким, высоким голосом" → "Начни скучно, затем становись более взволнованным" Ролевые игры, акустический контроль, переходы эмоций - все поддерживается.
3/5 - Основные инновации: Большинство голосовых моделей работают на частоте кадров 12.5-25 Гц. Fun-Audio-Chat использует представления речи с двойным разрешением, чтобы достичь 5 Гц. Результат: → ~50% меньше часов работы GPU → То же качество речи → Меньшая задержка Это прорыв в эффективности, который были нужны моделям S2S.
4/5 - Функция вызова речи: Выполняйте задачи с помощью естественных голосовых команд: "Установить таймер на 25 минут" или "Проложить маршрут от кампуса Alibaba до зоопарка Ханчжоу" SOTA среди ~8B моделей на OpenAudioBench, VoiceBench, UltraEval-Audio по: → Эмпатии голоса → Устным вопросам и ответам → Пониманию аудио → Вызову функций → Следованию инструкциям
157