Sebagian besar himpunan data suara publik mengindeks lebih banyak pada bahasa Inggris, audio studio, dan kondisi perekaman yang dipoles. Bias itu muncul di hilir: sistem STT dan TTS berkinerja buruk untuk pengguna global di lingkungan dunia nyata. Ini adalah masalah data lebih dari masalah model.