Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tento článek mě 🤯 šokoval
Všichni na X se pořád chlubí "LLM jako-soudce", jako by to byla nějaká magická pravdivá věštkyně.
Ale tento článek ukazuje něco šíleného:
Většina hodnocení LLM, která jste viděli, je zaujatá záměrem ne proto, že by byly modely špatné, ale protože samotný rozhodčí tiše zkresluje skóre.
Tady je ta divoká část:
Pokud je rozhodčí trochu špatný v odhalování špatných odpovědí (nízká specifičnost), nafukuje přesnost.
Pokud je trochu špatný v rozpoznávání správných odpovědí (nízká citlivost), snižuje přesnost.
Stejný model. Stejné výstupy.
Ale dostanete dva různé soudce = dvě různé "přesnosti".
Autoři ukazují matematiku, chybové křivky a přesné místo, kdy vám rozhodčí začne lhát, aniž by to chtěl.
Takže si vytvořili řešení:
Plug-in odhadovač, který upravuje hodnocené skóre zpět na skutečné skóre pomocí kalibračních dat.
Plus interval spolehlivosti, který nakonec odráží nejistotu jak z evaluační, tak z kalibrační množiny.
Tady je, co mě šokovalo:
Dokonce ukazují, jak efektivně alokovat kalibrační vzorky, abyste neplýtvali rozpočtem, což nikdo v LLM hodnocení neřeší.
...

Top
Hodnocení
Oblíbené

