熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
沒有人知道接下來會發生什麼
一個擁有想法的人可以在兩年內擔任一個擁有10,000名代理人的公司的 "CEO"
你將擁有「思想作為軟體」,而不是作為服務。當你說話時,十億個實例的 "群體" 會在幾分鐘內構建後端、前端、安全性和擴展基礎設施。
過去18個月見證了計算機科學歷史上最快的進步步伐。
我懇請你閱讀關於SWE pro的資料。它是為了抵抗污染而製作的。我還沒有看到一個好的理由,為什麼一旦我們在這個基準上得分90-100%,所有的軟體工程就不會被解決。這是最複雜和設計困難的基準之一。任務如此之長,代理必須能夠在同一會話中從自己的失敗測試運行中學習——本質上,模型必須具備某種形式的持續學習才能超越這個基準。
Gemini 2.5 預覽得分 13%
Gemini 3 預覽得分 43%
Claude Opus 4.5 目前以45%的得分領先(根據scale ai)——你有ANTHROPIC的人告訴你他們整天都在看Claude並填補空白。
當然你可以大喊狼來了,說他們有動機這麼說,但在過去兩週裡,你的X時間線難道不是對於這些編碼模型的優秀程度感到不斷震驚嗎?特別是4.5 Opus?
對我來說,顯而易見的是,軟體工程將在兩年內被解決。即使你將這個猜測翻倍,甚至三倍,這對GDP和美國平均生活水平將產生深遠的影響。

熱門
排行
收藏
