La mayoría de los conjuntos de datos públicos de voz sobre-indexan en inglés, audio de estudio y condiciones de grabación pulidas. Ese sesgo se manifiesta aguas abajo: los sistemas STT y TTS rinden por debajo de los usuarios globales en entornos reales. Esto es más un problema de datos que un problema de modelo.