Các mô hình nhỏ có thể đúng vì những lý do hoàn toàn sai. Các chỉ số độ chính xác cho bạn biết rằng một mô hình đã đưa ra câu trả lời đúng. Chúng không cho bạn biết liệu lý do có hợp lý hay không. Đối với các tác nhân tự động, sự phân biệt này là rất quan trọng. Nghiên cứu mới này tiết lộ một cuộc khủng hoảng độ tin cậy ẩn giấu: 50-69% câu trả lời đúng từ các mô hình 7-9B tham số chứa lý luận cơ bản sai lầm. Các nhà nghiên cứu gọi đây là hiện tượng "Đúng vì Lý do Sai". Hãy xem xét một phép tính tài chính. Mô hình trả lời "12" đúng cho câu hỏi "15% của 80 là bao nhiêu?" Nhưng lý luận của nó cho thấy nó đã nhân với 0.2 thay vì 0.15. Đầu ra là đúng. Logic thì bị hỏng. Trong triển khai, những thất bại ẩn giấu như vậy tích lũy một cách thảm khốc. Nghiên cứu đã phân tích 10,734 dấu vết lý luận trên Llama-3-8B, Mistral-7B và Qwen-2.5-7B về toán học, QA nhiều bước và các nhiệm vụ thông thường. Họ giới thiệu Điểm Độ Tin Cậy Lý Luận (RIS), một chỉ số dựa trên quy trình đánh giá từng bước thay vì chỉ các đầu ra cuối cùng. RAG liên tục cải thiện độ tin cậy lý luận với kích thước hiệu ứng trung bình đến lớn (Cohen's d = 0.23-0.93). Nó hoạt động bằng cách cung cấp khung bên ngoài giúp định hướng các phép tính dựa trên bằng chứng đã thu thập, giảm lỗi tính toán xuống 7.6%. Nhưng đây là phát hiện bất ngờ: các lời nhắc tự phê bình và xác minh thực sự gây hại cho hiệu suất (d = -0.14 đến -0.33). Các nhà nghiên cứu gọi đây là "phản ánh giả". Các mô hình nhỏ thiếu khả năng tự nhận thức thực sự. Khi được yêu cầu phê bình lý luận của mình, chúng không thực sự phản ánh. Chúng tạo ra văn bản trông giống như một sự phản ánh trong khi bịa ra những lý do nghe có vẻ hợp lý nhưng sai lầm. Để cho phép triển khai, họ đã tinh chế khả năng xác minh thành một bộ phân loại nơ-ron nhẹ, đạt được 0.86 F1 với tốc độ tăng 100 lần so với các thẩm phán LLM. Điều này làm cho việc đánh giá độ tin cậy theo thời gian thực trở nên thực tế. Bài học ở đây là độ chính xác một mình là không đủ an toàn cho việc triển khai các tác nhân mô hình nhỏ. Xác minh dựa trên quy trình cần trở thành một lớp an toàn tiêu chuẩn. Bài báo: Học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi: