Kodeagenter sliter med komplekse oppgaver i store, rotete repos, og dette blir ikke bedre før vi slutter å bruke mettede benchmarks med tester som ikke ligner på ekte ingeniørkunst. Derfor satser vi 1 million dollar på cline-bench, vår åpne referanse for virkelige kodeoppgaver!