445 Yapay Zeka Karşılaştırması Üzerine Yeni Araştırma • %48'i neyi ölçtükleri konusunda hemfikir değil • %39'u uygun, doğru olmayan verileri kullanıyor • %16 test istatistiksel anlamlılığı hala en güçlü araçlarımızı nasıl ölçeceğimizi bilmiyoruz IMO, değerlendirmeleri SAT gibi değil, spor gibi ele alır Yarışma > testleri Açık kurallar -> insan tarafından anlaşılabilir sonuçlar