Không ai biết điều gì đang đến Một người duy nhất với một ý tưởng có thể hoạt động như "CEO" của một công ty 10.000 nhân viên trong 2 năm Bạn sẽ có "phần mềm như một ý tưởng" chứ không phải như một dịch vụ. Khi bạn nói, một tỷ instance "bầy" sẽ xây dựng backend, frontend, bảo mật và cơ sở hạ tầng mở rộng trong vài phút. 18 tháng qua đã chứng kiến tốc độ tiến bộ nhanh nhất mà chúng ta từng chứng kiến trong lịch sử khoa học máy tính. Tôi kêu gọi bạn đọc về SWE pro. Nó được tạo ra để chống ô nhiễm. Tôi vẫn chưa đọc được lý do tốt nào tại sao khi chúng ta đạt 90-100% trên tiêu chuẩn này, tất cả kỹ thuật phần mềm sẽ không được giải quyết. Đây là một trong những tiêu chuẩn phức tạp và khó thiết kế nhất. Các nhiệm vụ dài đến mức, tác nhân phải có khả năng học từ các lần thử nghiệm thất bại của chính nó trong cùng một phiên - về cơ bản, một mô hình sẽ phải có một hình thức học liên tục để vượt qua tiêu chuẩn này. Bản xem trước Gemini 2.5 đạt 13% Bản xem trước Gemini 3 đạt 43% Claude Opus 4.5 hiện đang dẫn đầu với 45% (theo scale ai) — BẠN CÓ NGƯỜI TẠI ANTHROPIC NÓI VỚI BẠN RẰNG HỌ THEO DÕI CLAUDE CẢ NGÀY VÀ LÀM ĐẦY CÁC KHOẢNG TRỐNG. Chắc chắn bạn có thể kêu gọi rằng họ được khuyến khích để nói như vậy, nhưng liệu dòng thời gian X của bạn trong 2 tuần qua có phải là sự sốc liên tục về việc các mô hình lập trình tốt đến mức nào không? Đặc biệt là 4.5 Opus? Rõ ràng với tôi rằng kỹ thuật phần mềm sẽ được giải quyết trong 2 năm. Ngay cả khi bạn gấp đôi, không, GẤP BA lần dự đoán đó, nó sẽ có tác động SÂU RỘNG đến GDP và cuộc sống trung bình của người Mỹ.