Отрицательное согласие между 3 пограничными моделями на одних и тех же бенгальских транскриптах указывает на нечто более глубокое, чем случайная вариация. В условиях с низкими ресурсами и богатым разнообразием диалектов "правильное" не является единственным. Модели усваивают разные нормы из фрагментированных корпусов, что делает саму оценку нестабильной. Мы разбираем последствия в нашем последнем блоге, включая роль человеческого бенчмаркинга.