معايير الذكاء الاصطناعي تشبه إلى حد ما الاختبارات الموحدة التي نشأنا عليها في المدرسة. يبدو أن OpenAI قد علم الاختبار باستخدام 5.2 وصنع نموذجا أفضل في أداء الاختبارات بدلا من القيام بأشياء مفيدة بمفرده. آمل أن يصححوا المسار. حاليا أستخدم Gemini و Grok