Acordul negativ între 3 modele de frontieră pe aceleași transcrieri bengaleze sugerează ceva mai profund decât varianța aleatorie. În contexte cu puține resurse și bogate în dialecte, "corect" nu înseamnă singular. Modelele absorb norme diferite din corpora fragmentate, ceea ce face evaluarea însăși instabilă. Analizăm implicațiile în cel mai recent blog al nostru, inclusiv rolul benchmarking-ului uman.