Negativ överensstämmelse mellan tre frontier-modeller på samma bengaliska transkript tyder på något djupare än slumpmässig varians. I resursfattiga, dialektrika miljöer är "korrekt" inte singular. Modeller absorberar olika normer från fragmenterade korpus, vilket gör utvärderingen i sig instabil. Vi utforskar konsekvenserna i vår senaste blogg, inklusive människans roll som benchmarking.