我还没有阅读完整的论文,论文尚未发布,所以无法谈论细节,但我很高兴看到对 LLM 作为评判者应用了更多的方法论严谨性。LLM 评分是大量基准的核心,通常在没有明确统计验证的情况下使用。