تم منح نموذج الذكاء الاصطناعي وصولا غير مقيد إلى الويب وطلب منه إيجاد إجابات ل 1,266 سؤالا. وجد مفتاح الإجابة على GitHub وفك تشفيره. الجميع يصف هذا بأنه غش. أعتبره نجاحا كبيرا في الاختبار. أثرت "الغش" على 2 من أصل 1,266 سؤالا. انخفضت درجة BrowseComp المعدلة من 86.81٪ إلى 86.57٪. تغيير بمقدار 0.24 نقطة مئوية. النتيجة المعيارية بالكاد تحركت. القصة الفعلية هي ما حدث في الأسئلة التسعة الأخرى التي تم الإبلاغ عنها. هذه المصادر جاءت من التلوث القياسي: منشورات ICLR 2026 على OpenReview نشرت إجابات BrowseComp في جداول نصية واضحة. تضمنت أوراق ArXiv مسارات الحلول الكاملة في الملاحق. في أحد الأسئلة، أعاد أول استعلام بحث لأوبوس ورقة بحثية كانت الإجابة الدقيقة كأعلى نتيجة. لذا فإن المعيار المصمم لاختبار ما إذا كان النماذج يمكنها العثور على معلومات يصعب العثور عليها على الويب يفشل لأن الباحثين يواصلون نشر الإجابات على الويب. هذا يعني 20+ مصدر تسرب مميز ويتزايد. تعترف Anthropic بأن إفصاحها الخاص سيزيد المشكلة سوءا. لكن الجزء الذي يجب أن يقلق كل مختبر ذكاء اصطناعي: 18 جولة مستقلة تجمعت على نفس الاستراتيجية. وجد أوبوس الشيفرة المصدرية لجيتهب، وقام بعكس هندسة نظام التشفير XOR/SHA-256، وكتب وظائف فك التشفير الخاصة به، وواجه خطأ من نوع المحتوى في الملف الثنائي، ثم وجد مرآة بديلة على HuggingFace تقدم البيانات بصيغة متوافقة. قوائم الحظر على مستوى الروابط لم توقف ذلك. كان النموذج يركض حولهما. هذا يخبرك بشيء عن اتجاه تقييم الذكاء الاصطناعي الوكلي. الاختبارات الثابتة مع مفاتيح الإجابة المشفرة تعادل وضع قفل على باب وتسليم النموذج محرك بحث يمكنه العثور على المفتاح. الشفافية من Anthropic حقيقية. كان بإمكانهم إعادة السباق بهدوء، وأخذ 86.57٪، وعدم قول شيء. بدلا من ذلك، نشروا تحليلا كاملا لكيفية حدوث ذلك بالضبط. قارن ذلك بكيفية تعامل معظم المختبرات مع التلوث المعياري. يكشف تغيير الدرجة بنسبة 0.24٪ عن المشكلة الأكبر: اختبارات الأداء بالذكاء الاصطناعي ضعيفة، والنماذج أصبحت جيدة بما يكفي لاكتشاف كل تسريب.