Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM tuomarina on muodostunut hallitsevaksi tavaksi arvioida, kuinka hyvä malli on tehtävän ratkaisemisessa, koska se toimii ilman testijoukkoa ja käsittelee tapauksia, joissa vastaukset eivät ole ainutlaatuisia.
Mutta siitä huolimatta, kuinka laajasti tätä käytetään, lähes kaikki raportoidut tulokset ovat erittäin puolueellisia.
Olen innoissani voidessamme jakaa preprinttimme siitä, miten LLM:ää käytetään oikein tuomarina.
🧵
===
Joten miten ihmiset oikeasti käyttävät LLM:ää tuomarina?
Useimmat käyttävät LLM:ää arvioijana ja raportoivat empiirisen todennäköisyyden, että LLM sanoo vastauksen olevan oikea.
Kun LLM on täydellinen, tämä toimii hyvin ja antaa puolueettoman estimaattorin.
Jos LLM ei ole täydellinen, tämä menee rikki.
Otetaan esimerkiksi tilanne, jossa LLM arvioi oikein 80 prosenttia tapauksista.
Tarkemmin sanottuna, jos vastaus on oikea, LLM sanoo "tämä näyttää oikealta" 80 prosentin todennäköisyydellä, ja sama 80 prosenttia pätee, kun vastaus on oikeasti väärä.
Tässä tilanteessa sinun ei pitäisi raportoida empiiristä todennäköisyyttä, koska se on puolueellinen. Miksi?
Olkoon todellinen todennäköisyys, että testattu malli on oikea, p.
Silloin empiirinen todennäköisyys, että LLM sanoo "oikea" (= q), on
q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p
Joten puolueeton arvio pitäisi olla...



Johtavat
Rankkaus
Suosikit

