Olen valmis kuolemaan tällä kukkulalla: Parhaat äänimallit ovat niitä, joilla on paras tarkkuus avainkohteiden kanssa, eivät niitä, jotka optimoivat WER:n (Word Error Rate) mukaan. Useimmat puheesta tekstiksi -palveluntarjoajat optimoivat WER:lle, mutta tuotantosovelluksissa WER ei ole kovin relevantti. 95 % sanoista oikein on turhaa, jos asiakkaan nimi, puhelinnumero tai katuosoite, jonka he vain kirjoittivat kirjain kirjaimelta, missaa. Gladian tiimi teki todella siistin vertailuarvon: • 1 000+ puhelinpalvelukeskuskeskustelua • Paljon taustamelua • Keskity nimien, puhelinnumeroiden, osoitteiden, sijaintien jne. poimimiseen. Gladia-malli päihitti kaikki muut huippumallit jopa 17 %:lla! Tämä on juuri se data, joka on tärkeää yrityksille, jotka käyttävät näitä malleja. Jos teet tämän väärin, kaikki alavirta menee rikki. Muutama muu mainitsemisen arvoinen asia: • Viive osittaisilla: < 150ms • 100+ kieltä tuettu • Dynaaminen kielen tunnistus • Kokonais-WER 5,97 % Ehdottomasti kannattaa tarkistaa, jos joku käyttää äänimalleja: Kiitos Gladia-tiimille yhteistyöstä kanssani tässä postauksessa.