Jestem gotów umrzeć na tej górze: Najlepsze modele głosowe to te, które mają najlepszą dokładność w kluczowych jednostkach, a nie te, które optymalizują WER (wskaźnik błędów słownych). Większość dostawców rozpoznawania mowy optymalizuje WER, ale w aplikacjach produkcyjnych WER nie jest tak istotny. Uzyskanie 95% poprawnych słów jest bezużyteczne, jeśli nie uchwycisz imienia klienta, jego numeru telefonu lub adresu ulicy, który właśnie przeliterował. Zespół Gladia przeprowadził bardzo fajny benchmark: • Ponad 1000 rozmów w call center • Dużo hałasu w tle • Skupienie na wydobywaniu imion, numerów telefonów, adresów, lokalizacji itp. Model Gladia przewyższył każdy inny model najnowszej generacji o nawet 17%! To są dokładnie dane, które mają znaczenie dla firm korzystających z tych modeli. Jeśli to się nie uda, wszystko, co następuje, się psuje. Kilka innych rzeczy, które warto wspomnieć: • Opóźnienie na częściach: < 150ms • Wsparcie dla ponad 100 języków • Dynamiczne wykrywanie języka • Całkowity WER na poziomie 5,97% Zdecydowanie warto sprawdzić dla każdego, kto korzysta z modeli głosowych: Dziękuję zespołowi Gladia za współpracę przy tym poście.