Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM, bir yargıç olarak bir modelin bir görevi ne kadar iyi çözdüğünü değerlendirmek için baskın bir yol haline geldi; çünkü model test seti olmadan çalışır ve cevapların benzersiz olmadığı durumlarla ilgilenir.
Ancak bu yöntem ne kadar yaygın olursa olsun, bildirilen sonuçların neredeyse tamamı oldukça önyargılıdır.
LLM'yi jüri olarak doğru şekilde nasıl kullanacağımıza dair ön baskımızı paylaşmaktan heyecan duyuyoruz.
🧵
===
Peki insanlar LLM'yi nasıl yargıç olarak kullanıyor?
Çoğu kişi LLM'yi bir değerlendirme yapısı olarak kullanır ve LLM'nin cevabın doğru göründüğünü ampirik olarak bildirir.
LLM mükemmel olduğunda, bu gayet iyi çalışır ve tarafsız bir tahmin veriyor.
Eğer LLM mükemmel değilse, bu bozuk.
LLM'nin %80 oranında doğru değerlendirme yaptığı bir durumu düşünün.
Daha spesifik olarak, cevap doğruysa, LLM yüzde 80 olasılıkla "bu doğru görünüyor" der ve aynı yüzde 80 cevap aslında yanlış olduğunda da geçerlidir.
Bu durumda, ampirik olasılığı bildirmemelisiniz, çünkü bu önyargılıdır. Neden?
Test edilen modelin doğru olma gerçek olasılığı p olsun.
O zaman LLM'nin "doğru" (= q) dediği ampirik olasılık şöyledir
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Yani tarafsız tahmin şu olmalı...



En İyiler
Sıralama
Takip Listesi

