La plupart des ensembles de données vocales publics sont sur-représentés en anglais, avec des enregistrements en studio et dans des conditions d'enregistrement soignées. Ce biais se manifeste en aval : les systèmes STT et TTS sous-performent pour les utilisateurs mondiaux dans des environnements réels. C'est un problème de données plus qu'un problème de modèle.