BÁO CÁO MỚI: Các LLM thật tuyệt vời trong việc giải thích mọi thứ nhưng lại tệ trong việc thực hiện chúng. Hãy hỏi một mô hình "cách" so sánh hai số thập phân, và nó sẽ đưa cho bạn một thuật toán hoàn hảo từng bước. Hãy yêu cầu nó thực sự "thực hiện" phép so sánh… và đột nhiên “9.11 lớn hơn 9.9 vì 90 lớn hơn 11.” Các nhà nghiên cứu gọi đây là "hội chứng não chia tách tính toán". Các LLM phát triển một con đường để giải thích một quy trình, và một con đường hoàn toàn khác để thực hiện nó. Hai con đường này sống ở những phần khác nhau của hình học mô hình (như được thể hiện trong các biểu đồ t-SNE trên các trang 14–16 của báo cáo này) và chúng không giao tiếp với nhau. Đó là lý do tại sao một mô hình có thể dạy bạn phép chia dài nhưng không thể thực hiện nó một cách đáng tin cậy. Hoặc tại sao nó có thể diễn đạt các quy tắc logic nhưng lại thất bại trong suy luận cơ bản. Hoặc tại sao nó sản xuất ngôn ngữ hoàn hảo nhưng lý luận lại yếu ớt. Giải thích là hồi tưởng mẫu. Thực hiện là tính toán. Các LLM xuất sắc ở cái đầu tiên và gặp khó khăn với cái thứ hai. Sâu bên trong kiến trúc, các nhúng làm mờ đi những ý nghĩa mà con người giữ riêng biệt. Báo cáo đưa ra một ví dụ hài hước: “9.11” ngồi gần hơn với "Ngày 11 tháng 9" hơn là với "chín điểm mười một" vì các nhúng token trung bình qua mọi ngữ cảnh mà chúng đã thấy. Sự “ô nhiễm ngữ cảnh” đó khiến cho lý luận biểu tượng sạch sẽ trở nên không thể. Hơn nữa... Các Transformer chỉ có thể sản xuất "trung bình có trọng số" của những gì chúng đã thấy. Chúng không thể tạo ra các giá trị biểu tượng mới như “3354” từ “43 × 78” bằng cách sử dụng toán học thực sự. ...