Відкритий код Fun-Audio-Chat-8B від Alibaba Group Tongyi Group з їхньої сімейства голосових моделей Tongyi Fun — це модель перетворення голосу в мову (S2S), яка використовує на 50% менше GPU і розуміє емоційний тон без явних позначок. На відміну від традиційних ASR→LLM→TTS конвеєрів, S2S обробляє голос безпосередньо, зберігаючи тон, емоції та просодію з меншою затримкою. Емпатія голосу: Визначає емоції у тоні, темпі, паузах і просодії — не лише у словах. Те саме речення «щасливий і сумний» викликає різну відповідь. Детальніше👇 #TongyiFun 1/5
2/5 - Наступне навчання мовлення: Fun-Audio-Chat підтримує Speech Instruction-Follow, дозволяючи користувачам керувати атрибутами генерації мовлення, такими як емоції, стиль мовлення, швидкість, висот звуку та гучність за допомогою природних голосових команд. Приклади: → «Говоріть, як захоплений кіберспортивний коментатор» → «Скажи це сердитим, голосним, високим голосом» → «Починай нудьгуючи, а потім ще більше захоплюйся» Рольові ігри, акустичний контроль, емоційні переходи — все підтримується.
3/5 - Основні інновації: Більшість голосових моделей працюють на частоті кадрів 12,5-25 Гц. Fun-Audio-Chat використовує двороздільні мовні представлення для досягнення частоти 5 Гц. Результат: → ~50% менше годин GPU → Така ж якість мовлення → Нижча затримка Це прорив ефективності, який потрібен моделям S2S.
4/5 - Виклик мовленнєвих функцій: Виконуйте завдання за допомогою природних голосових команд: «Встановіть таймер фокусу на 25 хвилин» або «Навігація з кампусу Alibaba до зоопарку Ханчжоу» SOTA серед ~8B моделей на OpenAudioBench, VoiceBench, UltraEval-Audio для: → Емпатія голосу → Усне QA → Розуміння аудіо → Виклик функцій → Виконання інструкцій
292