Від'ємна узгодженість між трьома моделями на одних і тих же бенгальських транскриптах свідчить про щось глибше, ніж випадкова дисперсія. У середовищах з низькими ресурсами та діалектами «правильно» не є одницею. Моделі поглинають різні норми фрагментованих корпусів, що робить саму оцінку нестабільною. Ми розбираємо наслідки у нашому останньому блозі, зокрема роль людського бенчмаркінгу.