沒有人知道接下來會發生什麼 一個擁有想法的人可以在兩年內擔任一個擁有10,000名代理人的公司的 "CEO" 你將擁有「思想作為軟體」,而不是作為服務。當你說話時,十億個實例的 "群體" 會在幾分鐘內構建後端、前端、安全性和擴展基礎設施。 過去18個月見證了計算機科學歷史上最快的進步步伐。 我懇請你閱讀關於SWE pro的資料。它是為了抵抗污染而製作的。我還沒有看到一個好的理由,為什麼一旦我們在這個基準上得分90-100%,所有的軟體工程就不會被解決。這是最複雜和設計困難的基準之一。任務如此之長,代理必須能夠在同一會話中從自己的失敗測試運行中學習——本質上,模型必須具備某種形式的持續學習才能超越這個基準。 Gemini 2.5 預覽得分 13% Gemini 3 預覽得分 43% Claude Opus 4.5 目前以45%的得分領先(根據scale ai)——你有ANTHROPIC的人告訴你他們整天都在看Claude並填補空白。 當然你可以大喊狼來了,說他們有動機這麼說,但在過去兩週裡,你的X時間線難道不是對於這些編碼模型的優秀程度感到不斷震驚嗎?特別是4.5 Opus? 對我來說,顯而易見的是,軟體工程將在兩年內被解決。即使你將這個猜測翻倍,甚至三倍,這對GDP和美國平均生活水平將產生深遠的影響。