Цей папір мене 🤯 шокував Усі на X постійно хваляться «LLM-as-a-суддя», ніби це якийсь магічний оракул істини. Але ця стаття показує щось божевільне: Більшість оцінок LLM, які ви бачили, є упередженими не через погані моделі, а тому, що сам суддя тихо спотворює оцінку. Ось і найцікавіше: Якщо суддя трохи погано ловить неправильні відповіді (низька конкретність), це підвищує точність. Якщо він трохи погано розпізнає правильні відповіді (низька чутливість), це знижує точність. Та сама модель. Ті ж виходи. Але ви отримуєте двох різних суддів = дві різні «точності». Автори показують математику, криві помилок і точний момент, коли суддя починає брехати вам без усвідомлення. Тож вони створили рішення: Плагін-оцінювач, який повертає оцінку оцінки до реального за допомогою калібрувальних даних. Плюс довірчий інтервал, який нарешті відображає невизначеність як у оцінювальному, так і з набору калібрування. Ось що мене шокувало: Вони навіть показують, як ефективно розподіляти калібрувальні зразки, щоб не витрачати бюджет даремно, про що ніхто не говорить у LLM eval. ...