Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mọi người đều bỏ lỡ câu chuyện thực sự ở đây.
Đây không phải là một "kỹ thuật gợi ý." Bài báo có tên là Mô Hình Ngôn Ngữ Đệ Quy, không phải "Tư Duy Meta Đệ Quy." Và các tác giả không phải là những nhà nghiên cứu ngẫu nhiên đang cố gắng tăng số lượng trích dẫn.
Omar Khattab đã tạo ra DSPy, có hơn 31.000 sao trên GitHub và đã thay đổi cách mọi người xây dựng các hệ thống AI phức hợp. Tim Kraska là người tiên phong trong các cấu trúc chỉ mục học được cùng với Jeff Dean tại Google và điều hành Phòng Thí Nghiệm Hệ Thống Dữ Liệu và AI của MIT. Alex Zhang là một sinh viên tiến sĩ làm việc tại giao điểm của cả hai lĩnh vực.
Bài báo thực sự giải quyết một vấn đề cụ thể: LLMs suy giảm trên ngữ cảnh dài. Biểu đồ cho thấy hiệu suất của GPT-5 sụp đổ khi độ dài đầu vào tăng từ 2^14 đến 2^21 token, trong khi RLMs duy trì hiệu suất ổn định. Chúng xử lý các đầu vào vượt xa 100 lần so với cửa sổ ngữ cảnh.
Cái nhìn sâu sắc từ Twitter của Khattab: "Hầu hết mọi người hiểu sai RLMs là về LLMs tự gọi chính chúng. Cái nhìn sâu sắc hơn là LLMs tương tác với các gợi ý của chính chúng như là các đối tượng."
Điều này mở rộng toàn bộ quỹ đạo nghiên cứu của Khattab. DSPy đã biến các gợi ý thành các mô-đun lập trình. ColBERT đã làm cho việc truy xuất thông minh hơn. RLMs biến ngữ cảnh thành thứ mà mô hình có thể thao tác như dữ liệu trong bộ nhớ.
Prime Intellect, một trong những phòng thí nghiệm AI phi tập trung hàng đầu, đã bắt đầu xây dựng trên nền tảng này. Họ đã viết rằng RLMs sẽ cho phép họ "dạy các mô hình quản lý ngữ cảnh của chính chúng từ đầu đến cuối thông qua học tăng cường" cho các tác nhân hoạt động trong nhiều tuần hoặc nhiều tháng.
Giao dịch thực sự? Điều này giải quyết một rào cản mà mọi phòng thí nghiệm AI đều phải đối mặt: cửa sổ ngữ cảnh là một giới hạn cứng. Mở rộng chúng thông qua kiến trúc và đào tạo là tốn kém. RLMs cung cấp một phương pháp thời gian suy diễn hoạt động với các mô hình hiện có.
Nhưng hãy chú ý đến cái bẫy: điều này yêu cầu các mô hình có thể viết và thực thi mã một cách đáng tin cậy. Các tiêu chuẩn sử dụng GPT-5 trong một REPL Python. Các mô hình có khả năng sinh mã yếu hơn sẽ gặp khó khăn trong việc thực hiện phân rã đệ quy một cách sạch sẽ. Kỹ thuật này mở rộng với khả năng mã, không chỉ với khả năng lý luận.
Hàng đầu
Thứ hạng
Yêu thích
