Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я готов умереть на этом холме:
Лучшие голосовые модели — это те, которые имеют наилучшую точность по ключевым сущностям, а не те, которые оптимизируют WER (коэффициент ошибок слов).
Большинство поставщиков распознавания речи оптимизируют WER, но в производственных приложениях WER не так важен.
Получить 95% правильных слов бесполезно, если вы пропустите имя клиента, его номер телефона или адрес улицы, который он только что продиктовал по буквам.
Команда Gladia провела очень интересный бенчмарк:
• Более 1000 разговоров в колл-центре
• Много фонового шума
• Фокус на извлечении имен, номеров телефонов, адресов, местоположений и т.д.
Модель Gladia превзошла все другие современные модели на 17%!
Это именно те данные, которые важны для компаний, использующих эти модели. Если вы ошибетесь здесь, все последующее сломается.
Несколько других моментов, которые стоит упомянуть:
• Задержка на частичных данных: < 150 мс
• Поддержка более 100 языков
• Динамическое определение языка
• Общий WER на уровне 5.97%
Определенно стоит проверить для всех, кто использует голосовые модели:
Спасибо команде Gladia за сотрудничество со мной над этим постом.
Топ
Рейтинг
Избранное
