Більшість публічних голосових наборів даних переоцінюють англійську, студійне аудіо та відшліфовані умови запису. Ця упередженість проявляється далі: системи STT і TTS у реальних умовах працюють гірше для глобальних користувачів. Це більше проблема даних, ніж модель.