LLM як суддя стала домінуючим способом оцінки якості моделі у розв'язанні завдання, оскільки вона працює без тестового набору і охоплює випадки, де відповіді не є унікальними. Але, незважаючи на те, наскільки широко це використовується, майже всі опубліковані результати є дуже упередженими. Радий поділитися нашим препринтом про те, як правильно використовувати LLM як суддю. 🧵 === Отже, як насправді люди використовують LLM як суддя? Більшість людей просто використовують LLM як оцінювач і повідомляють емпіричну ймовірність того, що LLM скаже, що відповідь правильна. Коли LLM ідеальний, це працює добре і дає неупереджену оцінку. Якщо LLM не ідеальний, це ламається. Розглянемо випадок, коли LLM правильно оцінює 80% випадків. Більш конкретно, якщо відповідь правильна, LLM каже «це виглядає правильно» з ймовірністю 80%, і ті ж 80 відсотків застосовуються, коли відповідь насправді неправильна. У такій ситуації не слід повідомляти емпіричну ймовірність, оскільки вона упереджена. Чому? Нехай істинна ймовірність правильності перевіреної моделі дорівнює p. Тоді емпірична ймовірність того, що LLM каже «правильно» (= q), дорівнює q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p Отже, неупереджена оцінка має бути...