أعتقد أن هناك تركيزا كبيرا على قياس المهام الطويلة في METR كمؤشر على تقدم الذكاء الاصطناعي... ... لكن لا يهم. وبمساعدة بسيطة من GPT-5.2 Pro، حسبت الارتباطات بين اللوغاريتم(METR) والمعايير الرئيسية الأخرى، وجميعها تقريبا مرتبطة بشكل كبير
شكرا مرة أخرى ل @EpochAIResearch على جعل العديد من درجات المعايير متاحة للجمهور.
‏‎100‏