A maioria dos conjuntos de dados públicos de voz superindexa em inglês, áudio de estúdio e condições de gravação polidas. Esse viés aparece a jusante: sistemas STT e TTS têm desempenho inferior para usuários globais em ambientes do mundo real. Este é mais um problema de dados do que um problema de modelo.