Tidak ada yang tahu apa yang akan terjadi Satu orang dengan ide dapat bertindak sebagai "CEO" dari perusahaan dengan 10.000 agen dalam 2 tahun Anda akan memiliki "perangkat lunak sebagai pemikiran" bukan sebagai layanan. Saat Anda berbicara satu miliar instans, "kawanan" membangun infrastruktur backend, frontend, keamanan, dan penskalaan dalam hitungan menit. 18 bulan terakhir telah melihat laju kemajuan paling cepat yang pernah kita saksikan dalam sejarah ilmu komputer. Saya mohon Anda untuk membaca tentang SWE pro. Itu dibuat agar tahan kontaminasi. Saya belum membaca alasan bagus mengapa begitu kami mendapat skor 90-100% pada tolok ukur ini, semua rekayasa perangkat lunak tidak akan terpecahkan. Ini adalah salah satu tolok ukur yang paling kompleks dan sulit dirancang. Tugasnya sangat panjang, agen harus dapat belajar dari uji coba yang gagal dalam sesi yang sama - pada dasarnya model harus memiliki beberapa bentuk pembelajaran berkelanjutan untuk mengalahkan tolok ukur ini. Pratinjau Gemini 2.5 mencetak 13% Pratinjau Gemini 3 mencetak 43% Claude Opus 4.5 saat ini memimpin dengan 45% (menurut skala ai) — ANDA MEMILIKI ORANG-ORANG DI ANTHROPIC YANG MEMBERI TAHU ANDA BAHWA MEREKA MENONTON CLAUDE SEPANJANG HARI DAN MENGISI KEKOSONGAN. Tentu Anda bisa menangis serigala bahwa mereka diberi insentif untuk mengatakannya, tetapi apakah garis waktu X Anda tidak selama 2 minggu terakhir terus-menerus terkejut tentang seberapa baik model dalam pengkodean? Terutama 4.5 Opus? Sangat jelas bagi saya bahwa rekayasa perangkat lunak akan diselesaikan dalam 2 tahun. Bahkan jika Anda menggandakan, tidak ada TRIPLE yang menebak itu akan berdampak MENDALAM pada PDB dan kehidupan Amerika rata-rata