Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ten artykuł mnie zszokował 🤯
Wszyscy na X ciągle chwalą się „LLM jako sędzia”, jakby to był jakiś magiczny wróżbita prawdy.
Ale ten artykuł pokazuje coś szalonego:
Większość ocen LLM, które widziałeś, jest zaprojektowana w sposób stronniczy, nie dlatego, że modele są złe, ale dlatego, że sędzia sam cicho fałszuje wynik.
Oto szalona część:
Jeśli sędzia jest nieco zły w wychwytywaniu błędnych odpowiedzi (niska specyficzność), to zawyża dokładność.
Jeśli jest nieco zły w rozpoznawaniu poprawnych odpowiedzi (niska czułość), to zaniża dokładność.
Ten sam model. Te same wyniki.
Ale masz dwóch różnych sędziów = dwie różne „dokładności”.
Autorzy pokazują matematykę, krzywe błędów i dokładny moment, w którym sędzia zaczyna kłamać, nie mając na to zamiaru.
Więc zbudowali rozwiązanie:
Wtyczkę estymatora, która dostosowuje ocenę sędziowską z powrotem do rzeczywistego wyniku, używając danych kalibracyjnych.
Plus przedział ufności, który w końcu odzwierciedla niepewność zarówno z zestawu ocen, jak i zestawu kalibracyjnego.
Oto co mnie zszokowało:
Nawet pokazują, jak efektywnie przydzielać próbki kalibracyjne, aby nie marnować budżetu, o czym nikt w ocenie LLM nie mówi.
...

Najlepsze
Ranking
Ulubione

