A maioria dos conjuntos de dados de voz públicos tem uma sobre-representação do inglês, áudio de estúdio e condições de gravação polidas. Esse viés aparece a montante: sistemas de STT e TTS têm um desempenho inferior para usuários globais em ambientes do mundo real. Este é um problema de dados mais do que um problema de modelo.