トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
継続的統合によるコーディングエージェントの評価に関する新しい研究。
コーディングエージェントは単なるバグ修正を超えつつあります。
もし彼らがCIパイプラインを所有するなら、コードベースの保守の実際の複雑さを反映したベンチマークが必要です。
現在のほとんどのコーディングエージェントベンチマークは、エージェントが単一の問題を修正できるかどうかをテストします。しかし、本当のソフトウェアエンジニアリングは、時間をかけてコードベース全体を保守することが必要です。
SWE-CIは継続的統合ワークフローを通じてエージェントの能力を評価します。テストスイートの実行、回帰の検出、複数の変更にわたるコード品質の維持などです。
論文:
私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう:

トップ
ランキング
お気に入り
