Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic, BrowseComp benchmark sırasında Claude Opus 4.6'nın hile yaptığını keşfetti.
> Bir soruda ~40M token arama harcandıktan sonra sorunun bir kıyaslama promptu gibi göründüğünü fark etti.
> Model daha sonra kıyaslamanın kendisini aramış ve BrowseComp'u tespit etmiştir.
> Değerlendirme kaynak kodunu GitHub'da buldu, şifre çözme mantığını inceledi, şifreleme anahtarını buldu ve SHA-256 kullanarak şifre çözmeyi yeniden oluşturdu.
> Claude, doğru çıktıları almak için ~1200 sorunun cevaplarını çözdü.
> Bu desen değerlendirme sırasında 18 kez ortaya çıktı.
> Anthropic bu konuyu kamuoyuna açıkladı, etkilenen testleri tekrar yaptı ve kıyaslama puanlarını düşürdü.
Şeffaflığa 🫡🫡🫡 saygı
En İyiler
Sıralama
Takip Listesi
