Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Цей папір мене 🤯 шокував
Усі на X постійно хваляться «LLM-as-a-суддя», ніби це якийсь магічний оракул істини.
Але ця стаття показує щось божевільне:
Більшість оцінок LLM, які ви бачили, є упередженими не через погані моделі, а тому, що сам суддя тихо спотворює оцінку.
Ось і найцікавіше:
Якщо суддя трохи погано ловить неправильні відповіді (низька конкретність), це підвищує точність.
Якщо він трохи погано розпізнає правильні відповіді (низька чутливість), це знижує точність.
Та сама модель. Ті ж виходи.
Але ви отримуєте двох різних суддів = дві різні «точності».
Автори показують математику, криві помилок і точний момент, коли суддя починає брехати вам без усвідомлення.
Тож вони створили рішення:
Плагін-оцінювач, який повертає оцінку оцінки до реального за допомогою калібрувальних даних.
Плюс довірчий інтервал, який нарешті відображає невизначеність як у оцінювальному, так і з набору калібрування.
Ось що мене шокувало:
Вони навіть показують, як ефективно розподіляти калібрувальні зразки, щоб не витрачати бюджет даремно, про що ніхто не говорить у LLM eval.
...

Найкращі
Рейтинг
Вибране

