Negativ enighet på tvers av tre frontier-modeller på de samme bengalske transkriptene antyder noe dypere enn tilfeldig varians. I ressursfattige, dialektrike omgivelser er «korrekt» ikke entall. Modeller absorberer ulike normer fra fragmenterte korpora, noe som gjør evalueringen i seg selv ustabil. Vi utforsker implikasjonene i vår siste blogg, inkludert rollen til menneskelig benchmarking.