この論文には衝撃を受けました 🤯 Xのみんなは「LLMを裁判官として」と魔法の真実の神託のように自慢しています。 しかし、この論文は驚くべきことを示しています: あなたが見たほとんどのLLM評価は、モデルが悪いからではなく、審査員自身がスコアを静かに誤って伝えているため、意図的に偏っています。 ここが驚くべきところです: 審査員が間違った答えを見逃すのが少し苦手(特定性が低い)と、正確さが膨らんでしまいます。 正解の認識が少し弱い(感度が低い)と、正確さが損なわれます。 同じモデルです。出力は同じです。 しかし、2人の異なる裁判官=2つの異なる「正確さ」が生まれます。 著者たちは数学、誤差曲線、そして裁判官が意図せずに嘘をつき始める正確なポイントを示しています。 そこで彼らは修正案を作成しました: 校正データを用いて、判定スコアを実際のスコアに修正するプラグイン推定器です。 さらに、評価セットと校正セットの両方からの不確実性を最終的に反映した信頼区間も含まれています。 私が驚いたのはこんな感じです: さらに、LLM評価で誰も触れていない予算を無駄にしないよう、キャリブレーションサンプルの効率的な配分方法も示しています。 ...