Chúng tôi xin thông báo về cline-bench, một chuẩn mực mã nguồn mở thực tế cho lập trình agentic. cline-bench được xây dựng từ các nhiệm vụ kỹ thuật thực tế từ các nhà phát triển tham gia, nơi mà các mô hình tiên tiến đã thất bại và con người phải can thiệp. Mỗi nhiệm vụ được chấp nhận trở thành một môi trường RL hoàn toàn có thể tái tạo với một bản sao kho khởi đầu, một lời nhắc thực tế và các bài kiểm tra sự thật từ mã mà cuối cùng đã được phát hành. Đối với các phòng thí nghiệm và nhà nghiên cứu, điều này có nghĩa là: > bạn có thể đánh giá các mô hình trên công việc kỹ thuật thực sự, không phải các câu đố leetcode. > bạn nhận được các môi trường tương thích với Harbor và công cụ đánh giá hiện đại để so sánh song song. > bạn có thể sử dụng cùng một nhiệm vụ cho SFT và RL để việc đào tạo và đánh giá vẫn gắn liền với quy trình làm việc kỹ thuật thực tế. Hôm nay, chúng tôi mở cửa cho các đóng góp và bắt đầu thu thập các nhiệm vụ thông qua Cline Provider. Sự tham gia là tùy chọn và giới hạn cho các kho mã nguồn mở. Khi một nhiệm vụ khó làm khó một mô hình và bạn can thiệp, thất bại đó có thể được chuyển thành một môi trường tiêu chuẩn hóa mà toàn bộ cộng đồng có thể nghiên cứu, đánh giá và đào tạo. Nếu bạn làm việc trên các vấn đề mã nguồn mở khó khăn, đặc biệt là OSS thương mại, tôi muốn mời bạn tham gia. Chúng tôi cam kết 1 triệu đô la để tài trợ cho các người duy trì mã nguồn mở tham gia vào sáng kiến cline-bench. "Cline-bench là một ví dụ tuyệt vời về cách các chuẩn mực mở, thực tế có thể thúc đẩy toàn bộ hệ sinh thái tiến lên. Các nhiệm vụ lập trình chất lượng cao, được xác minh, gắn liền với quy trình làm việc thực tế của các nhà phát triển chính là những gì chúng tôi cần để đo lường có ý nghĩa các mô hình tiên tiến, phát hiện các chế độ thất bại và thúc đẩy công nghệ tiên tiến." – @shyamalanadkat, Trưởng phòng Đánh giá Ứng dụng @OpenAI "Nghiên cứu Nous tập trung vào việc đào tạo và phát triển các mô hình xuất sắc trong các nhiệm vụ thực tế. cline-bench sẽ là một công cụ thiết yếu trong nỗ lực của chúng tôi để tối đa hóa hiệu suất và hiểu rõ khả năng của các mô hình của chúng tôi." – @Teknium, Trưởng phòng Đào tạo Sau @nousresearch "Chúng tôi là những người hâm mộ lớn của mọi thứ mà Cline đã làm để trao quyền cho hệ sinh thái AI mã nguồn mở, và rất hào hứng để hỗ trợ việc phát hành cline-bench. Các môi trường mở chất lượng cao cho lập trình agentic là vô cùng hiếm. Việc phát hành này sẽ đi một chặng đường dài cả như một đánh giá về khả năng và như một nền tảng thử nghiệm sau đào tạo cho các nhiệm vụ thực tế khó khăn, nâng cao hiểu biết và khả năng tập thể của chúng tôi về phát triển phần mềm tự động." – @willccbb, Trưởng phòng Nghiên cứu @PrimeIntellect: "Chúng tôi chia sẻ cam kết của Cline đối với mã nguồn mở và tin rằng việc làm cho chuẩn mực này có sẵn cho tất cả sẽ giúp chúng tôi tiếp tục thúc đẩy khả năng lập trình tiên tiến của các LLM của chúng tôi." – @b_roziere, Nhà khoa học Nghiên cứu @MistralAI: Chi tiết đầy đủ có trong blog: