熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
長期編碼代理的基準測試
AI 編碼代理在當前的編碼基準測試中看起來令人印象深刻。但這些基準測試往往優化和測試錯誤的東西。
這項新研究介紹了 SWE-EVO,一個針對長期軟體演進的基準。
高達 80% 的軟體工程工作涉及維護和演進舊有的代碼庫,而不是從頭開始構建。當前的基準完全忽略了這一點。SWE-EVO 揭示了解決孤立問題與進行真正軟體演進之間的差距。
代理必須解讀發佈說明,並實施跨越平均 21 個文件的全面變更,而不是單一問題的修復,這些變更需經過平均 874 個測試的測試套件驗證。
搭配 OpenHands 的 GPT-5 在 SWE-Bench Verified 上達到 65%,但在 SWE-EVO 上僅達到 21%。
作者發現當前的代理在持續的多文件推理上存在困難。
該基準是從七個成熟的開源 Python 項目的發佈說明中構建的,包括 scikit-learn、pydantic 和 dask。每個任務都需要實施通常會跨越多個拉取請求的變更。金色補丁平均編輯 610 行,涉及 21 個文件和 51 個函數。
11 個模型的結果顯示出一致的模式。較大的模型表現優於較小的變體。GPT-5 解決了 21%,而 GPT-5-mini 為 10%,GPT-5-nano 為 4%。這一排名與 SWE-Bench 的表現相符,驗證了 SWE-EVO 作為一個有意義的基準。
失敗分析顯示出模型能力的明顯模式。最強的模型主要在指令遵循上失敗,誤解了細微的發佈說明。較弱的模型在工具使用和語法錯誤上掙扎。這表明 SWE-EVO 的難度源於語義推理,而非介面能力。
論文:
在我的學院學習如何構建有效的 AI 代理:

熱門
排行
收藏
