Sono disposto a morire su questa collina: I migliori modelli vocali sono quelli con la migliore accuratezza sui principali enti, non quelli che ottimizzano per il WER (Word Error Rate). La maggior parte dei fornitori di speech-to-text ottimizza per il WER, ma nelle applicazioni di produzione, il WER non è così rilevante. Avere il 95% delle parole corrette è inutile se perdi il nome del cliente, il loro numero di telefono o l'indirizzo che hanno appena spellato lettera per lettera. Il team di Gladia ha eseguito un benchmark molto interessante: • Oltre 1.000 conversazioni di call center • Molto rumore di fondo • Focus sull'estrazione di nomi, numeri di telefono, indirizzi, località, ecc. Il modello Gladia ha superato tutti gli altri modelli all'avanguardia fino al 17%! Questi sono esattamente i dati che contano per le aziende che utilizzano questi modelli. Se sbagli questo, tutto il resto si rompe. Alcune altre cose degne di nota: • Latenza sui parziali: < 150ms • Oltre 100 lingue supportate • Rilevamento dinamico della lingua • WER complessivo al 5,97% Assolutamente da controllare per chiunque utilizzi modelli vocali: Grazie al team di Gladia per aver collaborato con me su questo post.