像 cline-bench 这样的基准测试只有在完全开放的情况下才能发挥作用。 每个任务都来自一个开源代码库,因此任何人都可以检查问题,重现环境,并在相同的真实工程工作中比较模型和代理。 这正是像 @b_roziere 这样的人的关注点,他是 @MistralAI 的研究科学家,想要开放的基础设施,以帮助推动每个人的编码能力的前沿。