Ten artykuł mnie zszokował 🤯 Wszyscy na X ciągle chwalą się „LLM jako sędzia”, jakby to był jakiś magiczny wróżbita prawdy. Ale ten artykuł pokazuje coś szalonego: Większość ocen LLM, które widziałeś, jest zaprojektowana w sposób stronniczy, nie dlatego, że modele są złe, ale dlatego, że sędzia sam cicho fałszuje wynik. Oto szalona część: Jeśli sędzia jest nieco zły w wychwytywaniu błędnych odpowiedzi (niska specyficzność), to zawyża dokładność. Jeśli jest nieco zły w rozpoznawaniu poprawnych odpowiedzi (niska czułość), to zaniża dokładność. Ten sam model. Te same wyniki. Ale masz dwóch różnych sędziów = dwie różne „dokładności”. Autorzy pokazują matematykę, krzywe błędów i dokładny moment, w którym sędzia zaczyna kłamać, nie mając na to zamiaru. Więc zbudowali rozwiązanie: Wtyczkę estymatora, która dostosowuje ocenę sędziowską z powrotem do rzeczywistego wyniku, używając danych kalibracyjnych. Plus przedział ufności, który w końcu odzwierciedla niepewność zarówno z zestawu ocen, jak i zestawu kalibracyjnego. Oto co mnie zszokowało: Nawet pokazują, jak efektywnie przydzielać próbki kalibracyjne, aby nie marnować budżetu, o czym nikt w ocenie LLM nie mówi. ...