Penso che ci sia qualcosa di importante che sta accadendo qui e che vale la pena scoprire: 1) la maggior parte dei modelli si adatta eccessivamente alle valutazioni. Detto ciò, abbiamo bisogno di alcune valutazioni per dire a un modello se è un buon rilevatore di fandonie prima di andare a spendere un sacco di soldi per restituire sciocchezze. 2) deve esserci consapevolezza della servilità e generalmente essere d'accordo non è sempre la cosa migliore. 3) penso che utilizzare una combinazione di llms e umani per giudicare sarebbe prezioso.