Un accordo negativo tra 3 modelli di frontiera sugli stessi trascritti bengalesi suggerisce qualcosa di più profondo rispetto a una semplice varianza casuale. In contesti a bassa risorsa e ricchi di dialetti, "corretto" non è singolare. I modelli assorbono norme diverse da corpora frammentati, rendendo instabile la valutazione stessa. Analizziamo le implicazioni nel nostro ultimo blog, incluso il ruolo del benchmarking umano.