Negatywna zgodność w trzech modelach granicznych na tych samych transkryptach bengalskich sugeruje coś głębszego niż losowa zmienność. W środowiskach o niskich zasobach i bogatych w dialekty, "poprawność" nie jest jednorodna. Modele przyswajają różne normy z fragmentarycznych korpusów, co sprawia, że sama ocena jest niestabilna. Rozpakowujemy implikacje w naszym najnowszym blogu, w tym rolę benchmarkingu ludzkiego.