Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Відкритий код Fun-Audio-Chat-8B від Alibaba Group Tongyi Group з їхньої сімейства голосових моделей Tongyi Fun — це модель перетворення голосу в мову (S2S), яка використовує на 50% менше GPU і розуміє емоційний тон без явних позначок.
На відміну від традиційних ASR→LLM→TTS конвеєрів, S2S обробляє голос безпосередньо, зберігаючи тон, емоції та просодію з меншою затримкою.
Емпатія голосу: Визначає емоції у тоні, темпі, паузах і просодії — не лише у словах. Те саме речення «щасливий і сумний» викликає різну відповідь.
Детальніше👇
#TongyiFun
1/5
2/5 - Наступне навчання мовлення:
Fun-Audio-Chat підтримує Speech Instruction-Follow, дозволяючи користувачам керувати атрибутами генерації мовлення, такими як емоції, стиль мовлення, швидкість, висот звуку та гучність за допомогою природних голосових команд.
Приклади:
→ «Говоріть, як захоплений кіберспортивний коментатор»
→ «Скажи це сердитим, голосним, високим голосом»
→ «Починай нудьгуючи, а потім ще більше захоплюйся»
Рольові ігри, акустичний контроль, емоційні переходи — все підтримується.
3/5 - Основні інновації:
Більшість голосових моделей працюють на частоті кадрів 12,5-25 Гц. Fun-Audio-Chat використовує двороздільні мовні представлення для досягнення частоти 5 Гц.
Результат:
→ ~50% менше годин GPU
→ Така ж якість мовлення
→ Нижча затримка
Це прорив ефективності, який потрібен моделям S2S.
4/5 - Виклик мовленнєвих функцій:
Виконуйте завдання за допомогою природних голосових команд: «Встановіть таймер фокусу на 25 хвилин» або «Навігація з кампусу Alibaba до зоопарку Ханчжоу»
SOTA серед ~8B моделей на OpenAudioBench, VoiceBench, UltraEval-Audio для:
→ Емпатія голосу
→ Усне QA
→ Розуміння аудіо
→ Виклик функцій
→ Виконання інструкцій
292
Найкращі
Рейтинг
Вибране
