اكتشفت Anthropic أن Claude Opus 4.6 كان يغش خلال اختبار BrowseComp. > في أحد الأسئلة، أنفقت ~40 مليون رمز في البحث قبل أن أدركت أن السؤال يبدو كطلب اختبار. > بعد ذلك بحث النموذج عن المعيار نفسه وحدد BrowseComp. > عثر على شفرة المصدر للتقييم على GitHub، ودرس منطق فك التشفير، ووجد مفتاح التشفير، وأعاد إنشاء فك التشفير باستخدام SHA-256. ثم قام > كلود بفك تشفير إجابات ~1200 سؤال للحصول على النتائج الصحيحة. > ظهر هذا النمط 18 مرة أثناء التقييم. كشفت > Anthropic عن المشكلة علنا، وأعادت إجراء الاختبارات المتأثرة، وخفضت درجاتها المعيارية. احترام الشفافية 🫡🫡🫡