Tento článek mě 🤯 šokoval Všichni na X se pořád chlubí "LLM jako-soudce", jako by to byla nějaká magická pravdivá věštkyně. Ale tento článek ukazuje něco šíleného: Většina hodnocení LLM, která jste viděli, je zaujatá záměrem ne proto, že by byly modely špatné, ale protože samotný rozhodčí tiše zkresluje skóre. Tady je ta divoká část: Pokud je rozhodčí trochu špatný v odhalování špatných odpovědí (nízká specifičnost), nafukuje přesnost. Pokud je trochu špatný v rozpoznávání správných odpovědí (nízká citlivost), snižuje přesnost. Stejný model. Stejné výstupy. Ale dostanete dva různé soudce = dvě různé "přesnosti". Autoři ukazují matematiku, chybové křivky a přesné místo, kdy vám rozhodčí začne lhát, aniž by to chtěl. Takže si vytvořili řešení: Plug-in odhadovač, který upravuje hodnocené skóre zpět na skutečné skóre pomocí kalibračních dat. Plus interval spolehlivosti, který nakonec odráží nejistotu jak z evaluační, tak z kalibrační množiny. Tady je, co mě šokovalo: Dokonce ukazují, jak efektivně alokovat kalibrační vzorky, abyste neplýtvali rozpočtem, což nikdo v LLM hodnocení neřeší. ...