Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Đánh giá các tác nhân lập trình dài hạn
Các tác nhân lập trình AI trông ấn tượng trên các tiêu chuẩn lập trình hiện tại. Nhưng những tiêu chuẩn đó thường tối ưu hóa và kiểm tra cho những điều sai lầm.
Nghiên cứu mới này giới thiệu SWE-EVO, một tiêu chuẩn cho sự tiến hóa phần mềm dài hạn.
Tới 80% nỗ lực kỹ thuật phần mềm liên quan đến việc duy trì và phát triển các mã nguồn kế thừa thay vì xây dựng từ đầu. Các tiêu chuẩn hiện tại hoàn toàn bỏ qua điều này. SWE-EVO tiết lộ khoảng cách giữa việc giải quyết các vấn đề riêng lẻ và thực hiện sự tiến hóa phần mềm thực sự.
Thay vì chỉ sửa các vấn đề đơn lẻ, các tác nhân phải diễn giải các ghi chú phát hành và thực hiện các thay đổi toàn diện trải dài trung bình 21 tệp, được xác thực qua các bộ kiểm tra trung bình 874 bài kiểm tra cho mỗi trường hợp.
GPT-5 với OpenHands đạt 65% trên SWE-Bench Verified nhưng chỉ 21% trên SWE-EVO.
Các tác giả nhận thấy rằng các tác nhân hiện tại gặp khó khăn với lý luận đa tệp kéo dài.
Tiêu chuẩn được xây dựng từ các ghi chú phát hành của bảy dự án Python mã nguồn mở trưởng thành, bao gồm scikit-learn, pydantic và dask. Mỗi nhiệm vụ yêu cầu thực hiện các thay đổi mà bình thường sẽ trải dài qua nhiều yêu cầu kéo. Các bản vá vàng trung bình có 610 dòng được chỉnh sửa trên 21 tệp và 51 hàm.
Kết quả trên 11 mô hình tiết lộ các mẫu nhất quán. Các mô hình lớn hơn vượt trội hơn các biến thể nhỏ hơn. GPT-5 giải quyết 21% so với GPT-5-mini ở 10% và GPT-5-nano ở 4%. Xếp hạng phản ánh hiệu suất SWE-Bench, xác thực SWE-EVO là một tiêu chuẩn có ý nghĩa.
Phân tích thất bại cho thấy các mẫu khác biệt theo khả năng mô hình. Các mô hình mạnh nhất thất bại chủ yếu trong việc theo dõi hướng dẫn, hiểu sai các ghi chú phát hành tinh vi. Các mô hình yếu hơn gặp khó khăn với việc sử dụng công cụ và lỗi cú pháp. Điều này cho thấy độ khó của SWE-EVO xuất phát từ lý luận ngữ nghĩa, không phải khả năng giao diện.
Bài báo:
Học cách xây dựng các tác nhân AI hiệu quả trong học viện của tôi:

Hàng đầu
Thứ hạng
Yêu thích
