Programující agenti mají problémy s náročnou prací ve velkých neuspořádaných repozitářích a to se nezlepší, dokud přestaneme používat přesycené benchmarky s testy, které vůbec nevypadají jako skutečné inženýrství. Proto investujeme 1 milion dolarů do cline-bench, našeho otevřeného měřítka pro reálné programátorské úkoly!