Bence METR'in uzun görev ölçümüne yapay zeka ilerlemesinin bir işareti olarak fazla vurgu yapılıyor... ... Ama önemli değil. GPT-5.2 Pro'nun biraz yardımıyla, log(METR) ile diğer ana kıyaslamalar arasındaki korelasyonları hesapladım ve temelde hepsi yüksek korelasyonluyor
Bu kadar çok kıyaslama puanını halka açık hale getirdiği için @EpochAIResearch'ye tekrar teşekkürler.
81