Gli agenti di codifica faticano con lavori complessi in grandi repository disordinati, e questo non migliorerà finché non smetteremo di utilizzare benchmark saturati con test che non assomigliano affatto all'ingegneria reale. Ecco perché ci impegniamo a investire $1M in cline-bench, il nostro benchmark aperto per compiti di codifica nel mondo reale!