1/ Gli LLM che giudicano altri LLM sembrano efficienti... fino a quando non chiedi chi stabilisce le regole. Il bias, i suggerimenti e gli effetti dei fornitori si insinuano rapidamente.
2/ Presso Inference Labs, crediamo che la valutazione stessa debba essere verificabile. Se l'AI giudica l'AI, abbiamo bisogno di prove crittografiche, non di metriche di fiducia.
77