Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah ini mengejutkan saya 🤯
Semua orang di X terus membual tentang "LLM-as-a-judge" seperti itu adalah peramal kebenaran ajaib.
Tapi makalah ini menunjukkan sesuatu yang gila:
Sebagian besar evaluasi LLM yang Anda lihat bias oleh desain bukan karena model itu buruk, tetapi karena juri itu sendiri diam-diam salah menggambarkan skor.
Inilah bagian liarnya:
Jika seorang hakim sedikit buruk dalam menangkap jawaban yang salah (spesifisitas rendah), itu meningkatkan akurasi.
Jika sedikit buruk dalam mengenali jawaban yang benar (sensitivitas rendah), itu mengempiskan akurasi.
Model yang sama. Output yang sama.
Tetapi Anda mendapatkan dua hakim yang berbeda = dua "akurasi" yang berbeda.
Penulis menunjukkan matematika, kurva kesalahan, dan titik yang tepat di mana hakim mulai berbohong kepada Anda tanpa sengaja.
Jadi mereka membangun perbaikan:
Penaksir plug-in yang menyesuaikan skor yang dinilai kembali ke skor riil menggunakan data kalibrasi.
Ditambah interval kepercayaan yang akhirnya mencerminkan ketidakpastian dari set eval dan set kalibrasi.
Inilah yang mengejutkan saya:
Mereka bahkan menunjukkan cara mengalokasikan sampel kalibrasi secara efisien sehingga Anda tidak membuang anggaran, sesuatu yang tidak dibicarakan oleh siapa pun di LLM eval.
...

Teratas
Peringkat
Favorit

