Non ho letto il documento completo, che non è ancora uscito, quindi non posso parlare nei dettagli, ma sono felice di vedere che viene applicata maggiore rigorosità metodologica all'LLM come giudice. Le valutazioni dell'LLM sono al centro di un enorme numero di benchmark e spesso vengono utilizzate senza una chiara validazione statistica.