We kondigen cline-bench aan, een open source benchmark uit de echte wereld voor agentic coding. cline-bench is opgebouwd uit echte engineeringtaken van deelnemende ontwikkelaars waar grensmodellen faalden en mensen moesten ingrijpen. Elke geaccepteerde taak wordt een volledig reproduceerbare RL-omgeving met een startrepo-snapshot, een echte prompt en grondwaarheidstests van de code die uiteindelijk is verzonden. Voor laboratoria en onderzoekers betekent dit: > je kunt modellen evalueren op echte engineeringwerkzaamheden, niet op leetcode-puzzels. > je krijgt omgevingen die compatibel zijn met Harbor en moderne evaluatietools voor zij-aan-zij vergelijking. > je kunt dezelfde taken gebruiken voor SFT en RL, zodat training en evaluatie geworteld blijven in echte engineeringworkflows. Vandaag openen we bijdragen en beginnen we taken te verzamelen via de Cline Provider. Deelname is optioneel en beperkt tot open source-repos. Wanneer een moeilijke taak een model in de problemen brengt en je ingrijpt, kan die mislukking worden omgezet in een gestandaardiseerde omgeving die de hele gemeenschap kan bestuderen, benchmarken en trainen. Als je werkt aan moeilijke open source-problemen, vooral commerciële OSS, wil ik je persoonlijk uitnodigen om te helpen. We zetten $1M in om open source-onderhouders te sponsoren om deel te nemen aan het cline-bench-initiatief. "Cline-bench is een geweldig voorbeeld van hoe open, echte benchmarks het hele ecosysteem vooruit kunnen helpen. Hoogwaardige, geverifieerde codetaken geworteld in daadwerkelijke ontwikkelaarsworkflows zijn precies wat we nodig hebben om grensmodellen zinvol te meten, faalmodi te onthullen en de stand van de techniek vooruit te duwen." – @shyamalanadkat, Hoofd Toegepaste Evaluaties @OpenAI "Nous Research richt zich op het trainen en verspreiden van modellen die uitblinken in echte taken. cline-bench zal een integraal hulpmiddel zijn in onze inspanningen om de prestaties te maximaliseren en de mogelijkheden van onze modellen te begrijpen." – @Teknium, Hoofd Post Training @nousresearch "We zijn grote fans van alles wat Cline doet om het open source AI-ecosysteem te versterken, en zijn ongelooflijk enthousiast om de release van cline-bench te ondersteunen. Hoogwaardige open omgevingen voor agentic coding zijn uiterst zeldzaam. Deze release zal een grote stap voorwaarts zijn, zowel als evaluatie van mogelijkheden als een testbed na training voor uitdagende taken uit de echte wereld, en zal ons collectieve begrip en mogelijkheden rond autonome softwareontwikkeling bevorderen." – @willccbb, Onderzoeksleider @PrimeIntellect: "We delen Cline's toewijding aan open source en geloven dat het beschikbaar maken van deze benchmark voor iedereen ons zal helpen om de grenscodingscapaciteiten van onze LLM's verder te duwen." – @b_roziere, Onderzoekswetenschapper @MistralAI: Volledige details zijn te vinden in de blog: