Gemini 3 Pro, yeni AA-Omniscience Endeksi'mizde #1 sırayı aldı — ama bu incelikli bir hikaye AA-Her Şeyi Bilme, bizim yeni bilgi ve halüsinasyon değerlendirmemizdir. Gemini 3 Pro'nun liderliği, yüksek doğruluk oranı (doğru) ile yönlendirilir; model, bir sonraki en yüksek doğruluk modeli olan Grok 4'ten 14 puan daha yüksek puan aldı. Gemini 3 Pro'nun değerlendirmedeki halüsinasyon oranı %88, Gemini 2.5 Pro ve Gemini 2.5 Flash ile aynı. Bu, Gemini 3 Pro'nun bilgide önemli ilerlemeler elde ettiğini ama halüsinasyon eğiliminde maddi bir kazanım olmadığını gösteriyor. Halüsinasyon Oranı, modelin reddetmesi gereken hala yanlış cevap verme sıklığına dayanarak ölçüyoruz; bu, yanlış cevapların tüm yanlış denemeler arasında oranı olarak tanımlanır. AA-Omniscience'da Doğruluk ile Halüsinasyon Oranı arasında çok az korelasyon olduğunu gördük. Ayrıca, açık ağırlık modellerinin boyutu ile Doğruluk (ama Halüsinasyon Oranı değil) arasında yüksek bir korelasyon olduğunu bulduk. Bu nedenle, Gemini 3 Pro'nun çok yüksek hassasiyeti onun çok büyük bir model olduğunu gösteriyor. AA-Omniscience 👇 ile ilgili daha fazla detay için aşağıya bakınız