一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

長期編碼代理的基準測試 AI 編碼代理在當前的編碼基準測試中看起來令人印象深刻。但這些基準測試往往優化和測試錯誤的東西。這項新研究介紹了 SWE-EVO，一個針對長期軟體演進的基準。高達 80% 的軟體工程工作涉及維護和演進舊有的代碼庫，而不是從頭開始構建。當前的基準完全忽略了這一點。SWE-EVO 揭示了解決孤立問題與進行真正軟體演進之間的差距。代理必須解讀發佈說明，並實施跨越平均 21 個文件的全面變更，而不是單一問題的修復，這些變更需經過平均 874 個測試的測試套件驗證。搭配 OpenHands 的 GPT-5 在 SWE-Bench Verified 上達到 65%，但在 SWE-EVO 上僅達到 21%。作者發現當前的代理在持續的多文件推理上存在困難。該基準是從七個成熟的開源 Python 項目的發佈說明中構建的，包括 scikit-learn、pydantic 和 dask。每個任務都需要實施通常會跨越多個拉取請求的變更。金色補丁平均編輯 610 行，涉及 21 個文件和 51 個函數。 11 個模型的結果顯示出一致的模式。較大的模型表現優於較小的變體。GPT-5 解決了 21%，而 GPT-5-mini 為 10%，GPT-5-nano 為 4%。這一排名與 SWE-Bench 的表現相符，驗證了 SWE-EVO 作為一個有意義的基準。失敗分析顯示出模型能力的明顯模式。最強的模型主要在指令遵循上失敗，誤解了細微的發佈說明。較弱的模型在工具使用和語法錯誤上掙扎。這表明 SWE-EVO 的難度源於語義推理，而非介面能力。論文：在我的學院學習如何構建有效的 AI 代理：