Vi kunngjør cline-bench, en ekte åpen kildekode-benchmark for agentisk koding. Cline-Bench er bygget opp av virkelige ingeniøroppgaver fra deltakende utviklere der Frontier-modeller feilet og mennesker måtte gripe inn. Hver aksepterte oppgave blir et fullt reproduserbart RL-miljø med et start-repo-snapshot, en ekte prompt og sannhetstester fra koden som til slutt ble levert. For laboratorier og forskere betyr dette: > kan du vurdere modeller på ekte ingeniørarbeid, ikke leetcode-puslespill. > får du miljøer kompatible med Harbor og moderne evalueringsverktøy for side-ved-side sammenligning. > du kan bruke de samme oppgavene for SFT og RL slik at opplæring og evaluering forblir forankret i reelle ingeniørarbeidsflyter. I dag åpner vi bidrag og begynner å samle oppgaver gjennom Cline Provider. Deltakelse er valgfri og begrenset til åpne kildekode-arkiver. Når en vanskelig oppgave stopper en modell og du griper inn, kan den feilen gjøres om til et standardisert miljø som hele samfunnet kan studere, benchmarke og trene på. Hvis du jobber med vanskelige åpen kildekode-problemer, spesielt kommersielt OSS, vil jeg personlig invitere deg til å hjelpe. Vi forplikter 1 million dollar til å sponse open source-vedlikeholdere som kan delta i cline-bench-initiativet. "Cline-bench er et godt eksempel på hvordan åpne, virkelige referansepunkter kan drive hele økosystemet fremover. Høykvalitets, verifiserte kodeoppgaver basert på faktiske utviklerarbeidsflyter er akkurat det vi trenger for å måle frontmodeller meningsfullt, avdekke feilmoduser og utvikle det nyeste innen teknologi.» – @shyamalanadkat, leder for anvendte vurderinger @OpenAI "Nous Research fokuserer på å trene og spre modeller som utmerker seg i virkelige oppgaver. Cline-Bench vil være et integrert verktøy i våre anstrengelser for å maksimere ytelsen og forstå modellenes kapasiteter.» – @Teknium, leder for Post Training @nousresearch "Vi er store fans av alt Cline har gjort for å styrke det åpne AI-økosystemet, og er utrolig begeistret for å støtte Cline-bench-lanseringen. Høykvalitets åpne miljøer for agentisk koding er svært sjeldne. Denne utgivelsen vil bidra mye både som en evaluering av kapasiteter og som en testplattform etter opplæring for utfordrende virkelige oppgaver, og fremme vår kollektive forståelse og kapasiteter rundt autonom programvareutvikling.» – @willccbb, forskningsleder @PrimeIntellect: "Vi deler Clines forpliktelse til åpen kildekode og tror at det å gjøre denne referansen tilgjengelig for alle vil hjelpe oss å fortsette å presse de banebrytende kodingsmulighetene til våre LLM-er." – @b_roziere, forsker @MistralAI: Fullstendige detaljer finnes i bloggen: