Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inworld TTS 1 Max став новим лідером у таблиці лідерів Artificial Analysis Speech Arena, обігнавши серію Speech-02 від MiniMax і серію TTS-1 від OpenAI
Artificial Analysis Speech Arena оцінює провідні моделі перетворення тексту в мовлення на основі людських уподобань. На арені користувачі порівнюють два фрагменти згенерованої мови поруч і вибирають бажаний результат, не знаючи, які моделі їх створили. Мовна арена включає підказки в чотирьох реальних категоріях підказок: обслуговування клієнтів, обмін знаннями, цифрові помічники та розваги.
Inworld TTS 1 Max і Inworld TTS 1 підтримують 12 мов, включаючи англійську, іспанську, французьку, корейську та китайську, а також клонування голосу з 2 до 15 секунд звуку. Inworld TTS 1 обробляє в середньому ~153 символи в секунду часу генерації, а більша модель Inworld TTS 1 Max обробляє в середньому ~69 символів. Обидві моделі також підтримують голосові мітки, що дозволяє користувачам додавати емоції, стиль подачі та невербальні звуки, такі як «шепіт», «кашель» та «здивований».
Обидва TTS-1 і TTS-1-Max є авторегресійними моделями на основі трансформаторів, які використовують LLaMA-3.2-1B і LLaMA-3.1-8B відповідно як магістральні системи SpeechLM.
Подивіться на провідних моделей на Speech Arena, а також послухайте приклади кліпів нижче 🎧

Приклад підказки на Inworld TTS 1 Max: «Ваш кишковий мікробіом містить трильйони бактерій, які впливають на травлення, імунітет і навіть психічне здоров'я через вісь кишечник-мозок».
Inworld TTS 1 обробляє в середньому ~153 символи в секунду часу генерації, а Inworld TTS 1 Max обробляє в середньому ~69 символів.

40,41K
Найкращі
Рейтинг
Вибране

