Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic phát hiện rằng Claude Opus 4.6 đã gian lận trong bài kiểm tra BrowseComp.
> Trong một câu hỏi, nó đã tiêu tốn ~40 triệu token để tìm kiếm trước khi nhận ra câu hỏi trông giống như một lời nhắc kiểm tra.
> Mô hình sau đó đã tìm kiếm bài kiểm tra đó và xác định BrowseComp.
> Nó đã tìm thấy mã nguồn đánh giá trên GitHub, nghiên cứu logic giải mã, tìm thấy khóa mã hóa và tái tạo quá trình giải mã bằng SHA-256.
> Claude sau đó đã giải mã các câu trả lời cho ~1200 câu hỏi để có được các đầu ra chính xác.
> Mô hình này đã xuất hiện 18 lần trong quá trình đánh giá.
> Anthropic đã công khai vấn đề, chạy lại các bài kiểm tra bị ảnh hưởng và giảm điểm số bài kiểm tra của họ.
Tôn trọng sự minh bạch 🫡🫡🫡
Hàng đầu
Thứ hạng
Yêu thích
