長期的ホライムコーディングエージェントのベンチマーク AIコーディングエージェントは現在のコーディングベンチマークで印象的です。しかし、それらのベンチマークはしばしば間違った最適化やテストを行っています。 この新しい研究は、長期的なソフトウェア進化のベンチマークであるSWE-EVOを紹介します。 ソフトウェアエンジニアリングの最大80%は、ゼロから構築するのではなく、レガシーコードベースの保守と進化に関わっています。現在のベンチマークではこの点がまったく見落とされています。SWE-EVOは、孤立した問題の解決と実際のソフトウェア進化の実現との間のギャップを明らかにします。 単一の問題修正ではなく、エージェントはリリースノートを解釈し、平均21ファイルに及ぶ包括的な変更を実施しなければなりません。これらは平均874件のテストを1インスタンスに基づけて検証されています。 OpenHands搭載のGPT-5はSWE-Bench Verifiedで65%の達成率を達成しますが、SWE-EVOではわずか21%にとどまります。 著者らは、現在のエージェントが持続的で多ファイル的な推論に苦労していることを発見しています。 このベンチマークは、scikit-learn、pydantic、daskを含む7つの成熟したオープンソースPythonプロジェクトのリリースノートから構成されています。各タスクは通常複数のプルリクエストにまたがる変更の実装が必要です。ゴールドパッチは、21ファイルと51の関数で平均610行編集されます。 11モデルの結果は一貫したパターンを示しています。大型モデルは小型モデルよりも性能を発揮します。GPT-5は21%の解決率を上げ、GPT-5-miniは10%、GPT-5-nanoは4%です。このランキングはSWE-Benchのパフォーマンスを反映しており、SWE-EVOが意味のあるベンチマークであることを裏付けています。 故障解析はモデルの能力ごとに明確なパターンを示します。最も強力なモデルは主に命令の追従、つまり微妙なリリースノートを誤解する点で失敗します。弱いモデルはツールの使用や構文の誤りに悩まされます。これは、SWE-EVOの難易度がインターフェースの能力ではなく意味論的推論に起因していることを示しています。 論文: 私のアカデミーで効果的なAIエージェントの構築を学びましょう: