Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Questo documento mi ha scioccato 🤯
Tutti su X continuano a vantarsi di "LLM-as-a-judge" come se fosse qualche magico oracolo della verità.
Ma questo documento mostra qualcosa di pazzesco:
La maggior parte delle valutazioni LLM che hai visto sono progettate per essere distorte, non perché i modelli siano cattivi, ma perché il giudice stesso rappresenta silenziosamente in modo errato il punteggio.
Ecco la parte folle:
Se un giudice è leggermente scarso nel catturare risposte sbagliate (bassa specificità), gonfia l'accuratezza.
Se è leggermente scarso nel riconoscere risposte corrette (bassa sensibilità), riduce l'accuratezza.
Stesso modello. Stessi output.
Ma ottieni due giudici diversi = due "accuratezze" diverse.
Gli autori mostrano la matematica, le curve di errore e il punto esatto in cui il giudice inizia a mentirti senza volerlo.
Quindi hanno costruito una soluzione:
Un estimatore plug-in che aggiusta il punteggio giudicato riportandolo al punteggio reale utilizzando dati di calibrazione.
Inoltre, un intervallo di confidenza che riflette finalmente l'incertezza sia dal set di valutazione che dal set di calibrazione.
Ecco cosa mi ha scioccato:
Mostrano anche come allocare campioni di calibrazione in modo efficiente così da non sprecare budget, qualcosa di cui nessuno parla nelle valutazioni LLM.
...

Principali
Ranking
Preferiti

