La mayoría de los conjuntos de datos de voz públicos tienen una sobre-representación del inglés, audio de estudio y condiciones de grabación pulidas. Ese sesgo se manifiesta más adelante: los sistemas de STT y TTS tienen un rendimiento inferior para los usuarios globales en entornos del mundo real. Este es un problema de datos más que un problema de modelo.