継続的統合によるコーディングエージェントの評価に関する新しい研究。 コーディングエージェントは単なるバグ修正を超えつつあります。 もし彼らがCIパイプラインを所有するなら、コードベースの保守の実際の複雑さを反映したベンチマークが必要です。 現在のほとんどのコーディングエージェントベンチマークは、エージェントが単一の問題を修正できるかどうかをテストします。しかし、本当のソフトウェアエンジニアリングは、時間をかけてコードベース全体を保守することが必要です。 SWE-CIは継続的統合ワークフローを通じてエージェントの能力を評価します。テストスイートの実行、回帰の検出、複数の変更にわたるコード品質の維持などです。 論文: 私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう: