Bài nghiên cứu tuyệt vời. 🚨 Các LLM rất kém trong việc phản biện. Bài báo này cho thấy chính xác lý do tại sao. Hầu hết các công cụ AI coi phản biện như một nhiệm vụ viết. Tạo ra văn bản lịch sự. Nghe có vẻ tự tin. Tiến lên. Đó chính xác là lý do tại sao họ thất bại tại các hội nghị hàng đầu. Nghiên cứu này đảo ngược toàn bộ vấn đề phản biện. Thay vì "tạo ra một phản hồi", nó coi phản biện như một nhiệm vụ tổ chức quyết định + bằng chứng. Hệ thống, được gọi là RebuttalAgent, là một quy trình đa tác nhân từ chối viết bất cứ điều gì cho đến khi logic được đảm bảo. Đầu tiên, nó phân tích phản hồi của người đánh giá. Mỗi đoạn văn mơ hồ được chia thành những mối quan tâm cụ thể, có thể hành động. Không bỏ sót điểm nào. Không gom các phê bình không liên quan lại với nhau. Việc bao quát được thực thi trước khi bất cứ điều gì khác xảy ra. Tiếp theo là sự đổi mới thực sự: lý luận dựa trên bằng chứng. Đối với mỗi mối quan tâm, hệ thống xây dựng một bối cảnh hỗn hợp. Hầu hết bài báo được giữ nguyên để tiết kiệm token, nhưng các phần chính xác liên quan đến nhận xét của người đánh giá đó được mở rộng với độ trung thực đầy đủ. Nếu bằng chứng nội bộ không đủ, một tác nhân tìm kiếm theo yêu cầu sẽ truy xuất các bài báo bên ngoài và chuyển đổi chúng thành các tóm tắt sẵn sàng trích dẫn. Không có gì được trích dẫn trừ khi có thể truy nguyên. Sau đó là bước mà hầu hết các công cụ LLM hoàn toàn bỏ qua: xác minh chiến lược. Trước khi soạn thảo, RebuttalAgent tạo ra một kế hoạch phản hồi rõ ràng. Nó phân tách: Những gì có thể được làm rõ bằng các kết quả hiện có Những gì thực sự cần các thí nghiệm mới Những gì nên được thừa nhận mà không cam kết quá mức Một tác nhân kiểm tra sẽ kiểm toán kế hoạch này để đảm bảo tính nhất quán logic và an toàn cam kết. Nếu một phản hồi ngụ ý các kết quả không tồn tại, nó sẽ bị chặn. Những ảo tưởng chết ở đây....