Wir kündigen cline-bench an, ein Open-Source-Benchmark aus der realen Welt für agentisches Codieren. cline-bench basiert auf realen Ingenieuraufgaben von teilnehmenden Entwicklern, bei denen Grenzmodelle versagt haben und Menschen eingreifen mussten. Jede akzeptierte Aufgabe wird zu einer vollständig reproduzierbaren RL-Umgebung mit einem Start-Repo-Snapshot, einem echten Prompt und Tests aus dem Code, der letztendlich ausgeliefert wurde. Für Labore und Forscher bedeutet das: > Sie können Modelle an echten Ingenieurarbeiten bewerten, nicht an Leetcode-Rätseln. > Sie erhalten Umgebungen, die mit Harbor und modernen Evaluierungstools für den Vergleich nebeneinander kompatibel sind. > Sie können dieselben Aufgaben für SFT und RL verwenden, sodass Training und Bewertung in realen Ingenieur-Workflows verankert bleiben. Heute öffnen wir die Beiträge und beginnen, Aufgaben über den Cline Provider zu sammeln. Die Teilnahme ist optional und auf Open-Source-Repos beschränkt. Wenn eine schwierige Aufgabe ein Modell überfordert und Sie eingreifen, kann dieses Versagen in eine standardisierte Umgebung umgewandelt werden, die die gesamte Gemeinschaft studieren, benchmarken und darauf trainieren kann. Wenn Sie an schwierigen Open-Source-Problemen arbeiten, insbesondere an kommerziellen OSS, lade ich Sie persönlich ein, zu helfen. Wir verpflichten uns, 1 Million Dollar zu investieren, um Open-Source-Maintainer zu sponsern, die an der cline-bench-Initiative teilnehmen. "Cline-bench ist ein großartiges Beispiel dafür, wie offene, reale Benchmarks das gesamte Ökosystem voranbringen können. Hochwertige, verifizierte Codierungsaufgaben, die in tatsächlichen Entwickler-Workflows verankert sind, sind genau das, was wir brauchen, um Grenzmodelle sinnvoll zu messen, Fehlermodi aufzudecken und den Stand der Technik voranzutreiben." – @shyamalanadkat, Leiter der angewandten Evaluierungen @OpenAI "Nous Research konzentriert sich darauf, Modelle zu trainieren und zu verbreiten, die in der Lage sind, reale Aufgaben zu bewältigen. cline-bench wird ein integrales Werkzeug in unseren Bemühungen sein, die Leistung zu maximieren und die Fähigkeiten unserer Modelle zu verstehen." – @Teknium, Leiter des Post-Trainings @nousresearch "Wir sind große Fans von allem, was Cline tut, um das Open-Source-AI-Ökosystem zu stärken, und sind unglaublich aufgeregt, die Veröffentlichung von cline-bench zu unterstützen. Hochwertige offene Umgebungen für agentisches Codieren sind äußerst selten. Diese Veröffentlichung wird sowohl als Bewertung der Fähigkeiten als auch als Testumgebung nach dem Training für herausfordernde reale Aufgaben einen langen Weg gehen, um unser kollektives Verständnis und unsere Fähigkeiten im Bereich der autonomen Softwareentwicklung voranzutreiben." – @willccbb, Forschungsleiter @PrimeIntellect: "Wir teilen Clines Engagement für Open Source und glauben, dass die Bereitstellung dieses Benchmarks für alle uns helfen wird, die Grenz-Codierungsfähigkeiten unserer LLMs weiter voranzutreiben." – @b_roziere, Forschungswissenschaftler @MistralAI: Alle Details finden Sie im Blog: