Bài báo này đã khiến tôi sốc 🤯 Mọi người trên X cứ khoe khoang về "LLM-as-a-judge" như thể đó là một oracle sự thật kỳ diệu. Nhưng bài báo này cho thấy điều gì đó điên rồ: Hầu hết các đánh giá LLM mà bạn đã thấy đều bị thiên lệch do thiết kế, không phải vì các mô hình kém, mà vì chính thẩm phán đã âm thầm làm sai lệch điểm số. Đây là phần điên rồ: Nếu một thẩm phán hơi kém trong việc phát hiện các câu trả lời sai (độ đặc hiệu thấp), nó sẽ làm tăng độ chính xác. Nếu nó hơi kém trong việc nhận diện các câu trả lời đúng (độ nhạy thấp), nó sẽ làm giảm độ chính xác. Cùng một mô hình. Cùng một đầu ra. Nhưng bạn có hai thẩm phán khác nhau = hai "độ chính xác" khác nhau. Các tác giả đã chỉ ra toán học, các đường cong lỗi, và điểm chính xác nơi thẩm phán bắt đầu nói dối bạn mà không có ý định. Vì vậy, họ đã xây dựng một giải pháp: Một ước lượng plug-in điều chỉnh điểm số đã được đánh giá trở lại điểm số thực tế bằng cách sử dụng dữ liệu hiệu chuẩn. Cùng với một khoảng tin cậy cuối cùng phản ánh sự không chắc chắn từ cả bộ đánh giá và bộ hiệu chuẩn. Đây là điều đã khiến tôi sốc: Họ thậm chí còn chỉ ra cách phân bổ mẫu hiệu chuẩn một cách hiệu quả để bạn không lãng phí ngân sách, điều mà không ai trong đánh giá LLM nói đến. ...