コーディングエージェントは大規模で混沌としたリポジトリでの複雑な作業に苦労しており、実際のエンジニアリングとは全く違うテストで飽和したベンチマークを使うのをやめない限り、状況は改善しません。 だからこそ、私たちは実際のコーディングタスクのためのオープンベンチマークであるcline-benchに100万ドルを投資します!