Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM як суддя стала домінуючим способом оцінки якості моделі у розв'язанні завдання, оскільки вона працює без тестового набору і охоплює випадки, де відповіді не є унікальними.
Але, незважаючи на те, наскільки широко це використовується, майже всі опубліковані результати є дуже упередженими.
Радий поділитися нашим препринтом про те, як правильно використовувати LLM як суддю.
🧵
===
Отже, як насправді люди використовують LLM як суддя?
Більшість людей просто використовують LLM як оцінювач і повідомляють емпіричну ймовірність того, що LLM скаже, що відповідь правильна.
Коли LLM ідеальний, це працює добре і дає неупереджену оцінку.
Якщо LLM не ідеальний, це ламається.
Розглянемо випадок, коли LLM правильно оцінює 80% випадків.
Більш конкретно, якщо відповідь правильна, LLM каже «це виглядає правильно» з ймовірністю 80%, і ті ж 80 відсотків застосовуються, коли відповідь насправді неправильна.
У такій ситуації не слід повідомляти емпіричну ймовірність, оскільки вона упереджена. Чому?
Нехай істинна ймовірність правильності перевіреної моделі дорівнює p.
Тоді емпірична ймовірність того, що LLM каже «правильно» (= q), дорівнює
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Отже, неупереджена оцінка має бути...



Найкращі
Рейтинг
Вибране

