Khảo sát ấn tượng về lý luận tác động cho LLMs. (đánh dấu cái này) Hơn 135 trang! Tại sao điều này lại quan trọng? LLMs lý luận tốt trong các bối cảnh thế giới khép kín, nhưng chúng gặp khó khăn trong các môi trường mở, động nơi thông tin liên tục thay đổi. Mảnh ghép còn thiếu là hành động. Điều này là do lý luận tĩnh mà không có tương tác không thể thích ứng, học hỏi hoặc cải thiện từ phản hồi. Khảo sát mới này hệ thống hóa mô hình Lý luận Tác động, nơi LLMs được định hình lại như những tác nhân tự chủ có khả năng lập kế hoạch, hành động và học hỏi thông qua tương tác liên tục với môi trường của chúng. Nó cung cấp một lộ trình thống nhất kết nối suy nghĩ và hành động, cung cấp hướng dẫn có thể hành động để xây dựng các hệ thống tác động trong các động lực môi trường và cài đặt tối ưu hóa. Khung này tổ chức lý luận tác động theo ba chiều bổ sung: 1. Lý luận Tác động Cơ bản: Các khả năng cốt lõi của tác nhân đơn lẻ bao gồm lập kế hoạch, sử dụng công cụ và tìm kiếm. Các tác nhân phân tích mục tiêu, gọi công cụ bên ngoài và xác minh kết quả thông qua các hành động có thể thực thi. Đây là nền tảng. 2. Lý luận Tác động Tự phát triển: Cách các tác nhân cải thiện thông qua phản hồi, trí nhớ và thích ứng. Thay vì theo các con đường lý luận cố định, các tác nhân phát triển cơ chế cho sự phản ánh, phê bình và học hỏi dựa trên trí nhớ. Phản ánh, RL-cho-trí nhớ và thích ứng liên tục liên kết lý luận với học hỏi. 3. Lý luận Tập thể Đa tác nhân: Mở rộng trí thông minh từ các giải pháp đơn lẻ đến các hệ sinh thái hợp tác. Nhiều tác nhân phối hợp thông qua phân công vai trò, giao thức giao tiếp và trí nhớ chia sẻ. Tranh luận, giải quyết bất đồng và tính nhất quán thông qua các tương tác nhiều lượt. Trên tất cả các lớp, khảo sát phân biệt hai chế độ tối ưu hóa: lý luận trong ngữ cảnh (mở rộng tính toán thời gian suy diễn thông qua phối hợp và tìm kiếm mà không cần cập nhật tham số) và lý luận sau đào tạo (nội hóa các chiến lược thông qua RL và tinh chỉnh). Khảo sát bao gồm các ứng dụng trải dài từ khám phá toán học, phát hiện khoa học, robot hóa thân, chăm sóc sức khỏe, và nghiên cứu web tự động. Nó cũng xem xét cảnh quan chuẩn để đánh giá các khả năng tác động. Tôi đã theo dõi chặt chẽ lĩnh vực nghiên cứu này, và đây là một số thách thức mở còn lại: cá nhân hóa, tương tác dài hạn, mô hình thế giới, đào tạo đa tác nhân có thể mở rộng, và các khung quản trị cho triển khai trong thế giới thực. ...