像 cline-bench 這樣的基準測試只有在完全開放的情況下才有效。 每個任務都來自開源庫,因此任何人都可以檢查問題、重現環境,並在相同的真實工程工作上比較模型和代理。 這正是像 @b_roziere 這樣的人所關心的,他是 @MistralAI 的研究科學家,他們希望有開放的基礎設施,幫助推動每個人的編碼能力邊界。