編碼代理在大型混亂的代碼庫中處理複雜工作時面臨困難,而這種情況不會改善,直到我們停止使用與真實工程毫不相似的飽和基準測試。 這就是為什麼我們承諾投入100萬美元來支持cline-bench,我們的開放基準,用於真實世界的編碼任務!