私たちは、エージェントコーディングの実世界でオープンソースのベンチマークであるcline-benchを発表します。 Cline-Benchは、フロンティアモデルが失敗し、人間が介入せざるを得なかった実際の開発者によるエンジニアリング課題から構築されています。 受理された各タスクは、スタートレポのスナップショット、実際のプロンプト、そして最終的に出荷されたコードからのグラウンドトゥルーステストを備えた、完全に再現可能な強化学習環境となります。 研究室や研究者にとって、これは次のことを意味します: >、Leetcodeパズルではなく、実際のエンジニアリング作業でモデルを評価できます。 >、Harborと現代の評価ツールに対応した環境を並べて比較できます。 >SFTとRLの両方で同じタスクを使えるので、トレーニングや評価は実際のエンジニアリングワークフローに根ざしています。 本日、Cline Providerを通じて寄付を開始し、タスクの収集を開始しています。参加は任意で、オープンソースリポジトリに限定されます。 難しいタスクがモデルを困らせ、あなたが介入した場合、その失敗はコミュニティ全体が研究し、ベンチマークし、訓練できる標準化された環境に変えられます。 もしあなたが難しいオープンソースの問題、特に商用OSSに取り組んでいるなら、ぜひご協力をお願いしたいです。私たちは、クラインベンチイニシアチブに参加するオープンソースのメンテナンス者を支援するために100万ドルをコミットしています。 「Cline-benchは、オープンで現実的なベンチマークがエコシステム全体を前進させる素晴らしい例です。実際の開発者ワークフローに基づいた高品質で検証済みのコーディング作業こそが、最先端モデルを意味のある測定し、故障モードを明らかにし、最先端を推し進めるために必要なものです。」 – @shyamalanadkat、応用評価部門長 @OpenAI 「Nous Researchは、実世界の課題で優れたモデルの訓練と普及に注力しています。Cline-Benchは、当社のモデルのパフォーマンス最大化と能力理解の取り組みにおいて不可欠なツールとなります。」 – @Teknium、ポストトレーニング部門長@nousresearch 「私たちはClineがオープンソースAIエコシステムを強化するために行ってきたすべてのことに大ファンであり、Cline-benchリリースをサポートできることに非常に興奮しています。エージェントコーディングのための高品質なオープン環境は非常に稀です。このリリースは、能力の評価だけでなく、難しい現実世界の課題に対するトレーニング後のテストベッドとしても大きく貢献し、自律型ソフトウェア開発に関する私たちの共通の理解と能力をさらに向上させるでしょう。」 – @willccbb、リサーチリード@PrimeIntellect: 「私たちはClineのオープンソースへのコミットメントを共有しており、このベンチマークをすべての人に提供することで、私たちのLLMの最先端のコーディング能力をさらに推進し続けると信じています。」 – @b_roziere、リサーチサイエンティスト@MistralAI: 詳細はブログに記載されています: