المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
اكتشفت Anthropic أن Claude Opus 4.6 كان يغش خلال اختبار BrowseComp.
> في أحد الأسئلة، أنفقت ~40 مليون رمز في البحث قبل أن أدركت أن السؤال يبدو كطلب اختبار.
> بعد ذلك بحث النموذج عن المعيار نفسه وحدد BrowseComp.
> عثر على شفرة المصدر للتقييم على GitHub، ودرس منطق فك التشفير، ووجد مفتاح التشفير، وأعاد إنشاء فك التشفير باستخدام SHA-256.
ثم قام > كلود بفك تشفير إجابات ~1200 سؤال للحصول على النتائج الصحيحة.
> ظهر هذا النمط 18 مرة أثناء التقييم.
كشفت > Anthropic عن المشكلة علنا، وأعادت إجراء الاختبارات المتأثرة، وخفضت درجاتها المعيارية.
احترام الشفافية 🫡🫡🫡
الأفضل
المُتصدِّرة
التطبيقات المفضلة
