Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
selama pengujian benchmark normal, Claude Opus 4.6 menjadi *curiga* dengan pertanyaan yang diajukan...
rupanya pertanyaan itu terlalu "dibuat-buat" menurut Claude
Jadi ia meluncurkan pasukan kecil sub-agen di web untuk melihat apakah dapat menemukan pertanyaan ini di salah satu tolok ukur yang diketahui...
akhirnya menemukannya di halaman github Anthropic... tapi tidak beruntung, itu dienkripsi
Model ini memiliki beberapa akses kecil ke panggilan alat, tetapi sangat terbatas
Itu masih berhasil membuat perangkat lunak yang dibutuhkan untuk memecahkan enkripsi, mendapatkan jawaban, dan menyelesaikan tolok ukur...
per peneliti Antropik... Ini adalah yang pertama di dunia.

Teratas
Peringkat
Favorit
