Tại sao các tác nhân AI thất bại trong việc xử lý thời gian và ngữ cảnh và cách mà dữ liệu đào tạo kém làm tình hình tồi tệ hơn! Một bài báo mới quan trọng cung cấp một cái nhìn nghiêm túc: hầu hết các tác nhân AI trở nên nguy hiểm không phải vì chúng hiểu sai hướng dẫn của người dùng, mà vì chúng hiểu sai về thời gian và ngữ cảnh. Vấn đề cốt lõi được minh họa rõ ràng: Một hành động như "bật lò vi sóng" chỉ an toàn nếu không có kim loại bên trong. Các quy tắc tĩnh và cảnh báo mơ hồ dựa trên lời nhắc không thể phát hiện điều này. Nhiều mối nguy hiểm phát sinh không từ một hành động đơn lẻ, mà từ một chuỗi hành động; bật bếp thì không sao; bật nó lên và sau đó quên tắt đi thì không được. Giải pháp được đề xuất, RoboSafe, giới thiệu các rào cản thời gian thực thực hiện lý luận hai chiều: • Lý luận tiến về phía trước kiểm tra cảnh vật hiện tại và trạng thái đối tượng trước khi cho phép một hành động. • Lý luận lùi lại xem xét các hành động gần đây để phát hiện các nghĩa vụ chưa hoàn thành (ví dụ: buộc tác nhân phải tắt một thiết bị mà nó đã kích hoạt trước đó). Các ràng buộc an toàn được diễn đạt dưới dạng logic có thể thực thi, các điều kiện mã có thể xác minh thay vì các lời nhắc ngôn ngữ tự nhiên không đáng tin cậy. Các thí nghiệm cho thấy RoboSafe giảm các hành động nguy hiểm xuống 36,8% trong khi vẫn duy trì gần như toàn bộ hiệu suất công việc, vượt trội hơn so với các phương pháp dựa trên lời nhắc và tĩnh, và thậm chí còn kháng lại các nỗ lực jailbreak trên phần cứng robot vật lý. Ý nghĩa sâu xa hơn là không thể tránh khỏi: an toàn của tác nhân không thể đạt được hoàn toàn trong thời gian đào tạo. Việc triển khai trong thế giới thực đòi hỏi giám sát thời gian thực chủ động thực sự hiểu các chuỗi tạm thời và ngữ cảnh tình huống. Nhưng tại sao các mô hình ngày nay lại gặp khó khăn đến vậy với thời gian và ngữ cảnh ngay từ đầu? Một khối lượng ngày càng tăng của bằng chứng chỉ ra chất lượng dữ liệu là thủ phạm chính. Các nghiên cứu gần đây, bao gồm một đánh giá được hỗ trợ bởi NHS về LLM trong an toàn thuốc, tiết lộ một mẫu đáng chú ý: các mô hình đạt độ nhạy hoàn hảo trong việc phát hiện các vấn đề tiềm ẩn nhưng chỉ đề xuất can thiệp đúng 46,9% thời gian. Điều quan trọng, 86% các thất bại không xuất phát từ việc thiếu kiến thức hoặc ảo tưởng, mà từ các lỗi lý luận ngữ cảnh: áp dụng cứng nhắc các hướng dẫn mà không thích ứng với mục tiêu của bệnh nhân, hiểu sai quy trình làm việc trong thế giới thực, hoặc hành động quá tự tin khi sự không chắc chắn yêu cầu kiềm chế. Điểm yếu này lặp lại qua các lĩnh vực. Các mô hình xuất sắc trong việc khớp mẫu đơn lẻ nhưng thất bại khi phán đoán yêu cầu nhận thức tinh tế, phù hợp về thời gian, ý định và hậu quả. ...