METR ليست "آمنة" بنسبة 100٪ لكنها تظل واحدة من أكثر المعايير قيمة لأنها تدار من قبل فريق كفء ومجهز بموارد جيدة يشمل العديد من المهام المتنوعة التي ليست متاحة للتدريب على الجمهور. يمكن 'التلاعب' بمعايير أخرى بأن يعرف الذكاء الاصطناعي الإجابات مسبقا (يحل بواسطة مجموعات خاصة تحتفظ به) أو يقوم بالتعلم الواقعي على المهام (يحل بوجود تنوع في المهام). ... يمكن أن تتعرض معايير الأداء إلى بعض المشاكل (مثلا، كان لدى SWE-Bench الأصلي قبل "SWE-Bench Verified" بعض المشاكل التي لا يمكن حلها عن طريق الخطأ). أعتقد أن المعايير المختلفة تناسب المستويات. METR يبدو كتقييم من المستوى الأول الذهبي. ARC-AGI و FrontierMath أيضا ليسا سيئين، ربما مثل المستوى الثاني. يبدو أن SWE-Bench أقل أهمية عندما يكون لديك METR بالفعل. أرغب بشدة في الحصول على المزيد من المعايير العليا خارج الرياضيات والهندسة. أنا متحمس ل ARC-AGI-3 (لعبة ألعاب الفيديو).