Chúng tôi đang chia sẻ một cái nhìn sớm về quá trình đào tạo SWE-1.6 đang diễn ra của chúng tôi. Nó cải thiện đáng kể so với SWE-1.5 trong khi được huấn luyện sau trên cùng một mô hình đã được huấn luyện trước - và nó chạy nhanh như nhau với tốc độ 950 tok/s. Trên SWE-Bench Pro, nó vượt qua các mô hình mã nguồn mở hàng đầu. Mô hình xem trước vẫn thể hiện một số hành vi không mong muốn như suy nghĩ quá nhiều và tự xác minh quá mức, điều mà chúng tôi nhằm cải thiện. Chúng tôi đang triển khai quyền truy cập sớm cho một nhóm nhỏ người dùng trong Windsurf.
Chúng tôi đã tinh chỉnh công thức RL của mình và mở rộng cơ sở hạ tầng để mở khóa gấp hai lần khả năng tính toán so với những gì đã được sử dụng để đào tạo SWE-1.5. Chúng tôi đã mở rộng đáng kể số lượng môi trường RL và thấy sự cải thiện liên tục với việc đào tạo RL thêm.
Thật thú vị khi quan sát mô hình học cách suy nghĩ kỹ hơn và lặp lại nhiều lần cho các bài toán khó trong SWE-Bench Pro. Ngược lại, chúng tôi nhận thấy sự suy nghĩ quá mức và tự xác minh quá nhiều trong việc tự thử nghiệm của chính mình. Tìm ra sự cân bằng đúng giữa tính tương tác và tư duy dài hạn là một lĩnh vực nghiên cứu đang diễn ra.
Chúng tôi đã tối ưu hóa hệ thống đào tạo của mình để chạy nhanh hơn 6 lần so với 3 tháng trước. Ví dụ, thuật toán của chúng tôi hiện tại có thể chịu đựng độ cũ cao hơn, điều này cho phép chúng tôi tận dụng tối đa các động cơ suy diễn của mình. Trong bài viết trên blog của chúng tôi (), chúng tôi chia sẻ thêm chi tiết về các tối ưu hóa đào tạo của mình và cách chúng tôi quản lý phân bổ GPU cho RL không đồng bộ.
98