编码代理在大型混乱的代码库中处理复杂工作时面临困难,直到我们停止使用与真实工程毫不相似的饱和基准测试,这种情况不会改善。 这就是为什么我们承诺投入100万美元用于cline-bench,这是我们针对真实编码任务的开放基准!