🚨 Mọi người cứ hỏi tại sao các tác nhân AI lại sụp đổ ngay khi bạn vượt qua bản demo. Bài báo này từ Google DeepMind, Meta, Amazon và Yale một cách lặng lẽ đưa ra câu trả lời không thoải mái. Các LLM hiện nay không lý luận. Chúng phản ứng. Chúng tạo ra văn bản trôi chảy từng token một, nhưng chúng không lập kế hoạch, không suy ngẫm, hay quyết định khi nào nên dừng lại và suy nghĩ lại. Chúng nghe có vẻ thông minh vì ngôn ngữ là điểm mạnh của chúng, chứ không phải vì khả năng phán đoán. Bài báo lập luận rằng tiến bộ thực sự đến từ việc biến các LLM thành những người lý luận có tác động. Các hệ thống có thể đặt ra mục tiêu, chia nhỏ chúng thành các mục tiêu phụ, chọn hành động, đánh giá kết quả và thay đổi chiến lược giữa chừng. Chúng hình thức hóa lý luận như một vòng lặp, không phải là một lời nhắc: quan sát → lập kế hoạch → hành động → suy ngẫm → cập nhật trạng thái → lặp lại Đây là sự chuyển đổi quan trọng. Thay vì một chuỗi suy nghĩ dài, mô hình duy trì một trạng thái nhiệm vụ nội bộ. Nó quyết định điều gì cần suy nghĩ tiếp theo, không chỉ là cách hoàn thành câu. Đó là lý do tại sao CoT dài hơn lại bị chững lại. Bạn có nhiều từ hơn, chứ không phải quyết định tốt hơn. Một trong những hiểu biết sắc bén nhất: lý luận sụp đổ khi kiểm soát và lý luận bị trộn lẫn. Khi một lời nhắc duy nhất cố gắng lập kế hoạch, thực hiện, phê bình và hoàn tất, các lỗi tích lũy một cách im lặng. Các hệ thống có tác động tách biệt các vai trò. Lập kế hoạch là rõ ràng. Thực hiện là có phạm vi. Suy ngẫm là bị trì hoãn và có cấu trúc. Bài báo cho thấy những cải tiến đáng kể chỉ bằng cách cung cấp cho các mô hình: • các mục tiêu trung gian rõ ràng • các điểm kiểm tra cho tự đánh giá • quyền từ bỏ các con đường xấu...