Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Группа Alibaba открыла исходный код Fun-Audio-Chat-8B из своей семейства голосовых моделей Tongyi Fun - модели голосового взаимодействия (S2S), которая использует на 50% меньше GPU, понимая эмоциональный тон без явных меток.
В отличие от традиционных конвейеров ASR→LLM→TTS, S2S обрабатывает голос напрямую, сохраняя тон, эмоции и просодию с меньшей задержкой.
Эмпатия голоса: определяет эмоции по тону, темпу, паузам и просодии - не только по словам. Одна и та же фраза, произнесенная с радостью и грустью, вызывает разную реакцию.
Больше деталей👇
#TongyiFun
1/5
2/5 - Следование речевым инструкциям:
Fun-Audio-Chat поддерживает следование речевым инструкциям, позволяя пользователям управлять атрибутами генерации речи, такими как эмоция, стиль речи, скорость, тон и громкость с помощью естественных голосовых команд.
Примеры:
→ "Говори как взволнованный комментатор киберспорта"
→ "Скажи это сердитым, громким, высоким голосом"
→ "Начни скучно, затем становись более взволнованным"
Ролевые игры, акустический контроль, переходы эмоций - все поддерживается.
3/5 - Основные инновации:
Большинство голосовых моделей работают на частоте кадров 12.5-25 Гц. Fun-Audio-Chat использует представления речи с двойным разрешением, чтобы достичь 5 Гц.
Результат:
→ ~50% меньше часов работы GPU
→ То же качество речи
→ Меньшая задержка
Это прорыв в эффективности, который были нужны моделям S2S.
4/5 - Функция вызова речи:
Выполняйте задачи с помощью естественных голосовых команд: "Установить таймер на 25 минут" или "Проложить маршрут от кампуса Alibaba до зоопарка Ханчжоу"
SOTA среди ~8B моделей на OpenAudioBench, VoiceBench, UltraEval-Audio по:
→ Эмпатии голоса
→ Устным вопросам и ответам
→ Пониманию аудио
→ Вызову функций
→ Следованию инструкциям
157
Топ
Рейтинг
Избранное
