Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ce document m'a choqué 🤯
Tout le monde sur X ne cesse de se vanter de "LLM-en-tant-que-juges" comme si c'était une sorte d'oracle de vérité magique.
Mais ce document montre quelque chose d'insensé :
La plupart des évaluations de LLM que vous avez vues sont biaisées par conception, non pas parce que les modèles sont mauvais, mais parce que le juge lui-même déforme discrètement le score.
Voici la partie folle :
Si un juge est légèrement mauvais pour attraper les mauvaises réponses (faible spécificité), cela gonfle l'exactitude.
S'il est légèrement mauvais pour reconnaître les bonnes réponses (faible sensibilité), cela réduit l'exactitude.
Même modèle. Même sorties.
Mais vous obtenez deux juges différents = deux "exactitudes" différentes.
Les auteurs montrent les mathématiques, les courbes d'erreur, et le point exact où le juge commence à vous mentir sans le vouloir.
Ils ont donc construit une solution :
Un estimateur plug-in qui ajuste le score jugé au score réel en utilisant des données de calibration.
Plus un intervalle de confiance qui reflète enfin l'incertitude tant de l'ensemble d'évaluation que de l'ensemble de calibration.
Voici ce qui m'a choqué :
Ils montrent même comment allouer efficacement les échantillons de calibration afin que vous ne gaspilliez pas de budget, quelque chose dont personne dans l'évaluation de LLM ne parle.
...

Meilleurs
Classement
Favoris

