我還沒有閱讀完整的論文,因為它尚未發布,所以無法談論細節,但我很高興看到對 LLM 作為評判者應用更多的方法論嚴謹性。LLM 評分是大量基準的核心,並且經常在沒有明確統計驗證的情況下使用。