Negatieve overeenstemming tussen 3 grensmodellen op dezelfde Bengaalse transcripties suggereert iets diepers dan willekeurige variatie. In omgevingen met weinig middelen en rijke dialecten is "correct" niet enkelvoudig. Modellen absorberen verschillende normen uit gefragmenteerde corpora, waardoor de evaluatie zelf onstabiel wordt. We ontrafelen de implicaties in onze nieuwste blog, inclusief de rol van menselijke benchmarking.