Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Pro, yeni AA-Omniscience Endeksi'mizde #1 sırayı aldı — ama bu incelikli bir hikaye
AA-Her Şeyi Bilme, bizim yeni bilgi ve halüsinasyon değerlendirmemizdir. Gemini 3 Pro'nun liderliği, yüksek doğruluk oranı (doğru) ile yönlendirilir; model, bir sonraki en yüksek doğruluk modeli olan Grok 4'ten 14 puan daha yüksek puan aldı. Gemini 3 Pro'nun değerlendirmedeki halüsinasyon oranı %88, Gemini 2.5 Pro ve Gemini 2.5 Flash ile aynı. Bu, Gemini 3 Pro'nun bilgide önemli ilerlemeler elde ettiğini ama halüsinasyon eğiliminde maddi bir kazanım olmadığını gösteriyor.
Halüsinasyon Oranı, modelin reddetmesi gereken hala yanlış cevap verme sıklığına dayanarak ölçüyoruz; bu, yanlış cevapların tüm yanlış denemeler arasında oranı olarak tanımlanır. AA-Omniscience'da Doğruluk ile Halüsinasyon Oranı arasında çok az korelasyon olduğunu gördük.
Ayrıca, açık ağırlık modellerinin boyutu ile Doğruluk (ama Halüsinasyon Oranı değil) arasında yüksek bir korelasyon olduğunu bulduk. Bu nedenle, Gemini 3 Pro'nun çok yüksek hassasiyeti onun çok büyük bir model olduğunu gösteriyor.
AA-Omniscience 👇 ile ilgili daha fazla detay için aşağıya bakınız

En İyiler
Sıralama
Takip Listesi

