Un accord négatif entre 3 modèles de pointe sur les mêmes transcriptions bengali suggère quelque chose de plus profond qu'une simple variance aléatoire. Dans des contextes à faibles ressources et riches en dialectes, le terme "correct" n'est pas unique. Les modèles absorbent différentes normes à partir de corpus fragmentés, rendant l'évaluation elle-même instable. Nous décryptons les implications dans notre dernier blog, y compris le rôle de l'évaluation humaine.