Negative Übereinstimmung über 3 Grenzmodelle hinweg bei denselben bengalischen Transkripten deutet auf etwas Tieferes als zufällige Varianz hin. In ressourcenarmen, dialektreichen Umgebungen ist "richtig" nicht singular. Modelle absorbieren unterschiedliche Normen aus fragmentierten Korpora, was die Bewertung selbst instabil macht. Wir entpacken die Implikationen in unserem neuesten Blog, einschließlich der Rolle des menschlichen Benchmarkings.