Estamos a anunciar o cline-bench, um benchmark de código aberto do mundo real para codificação agentic. O cline-bench é construído a partir de tarefas de engenharia do mundo real de desenvolvedores participantes onde modelos de ponta falharam e os humanos tiveram que intervir. Cada tarefa aceita torna-se um ambiente RL totalmente reproduzível com um instantâneo do repositório inicial, um prompt real e testes de verdade a partir do código que, em última análise, foi enviado. Para laboratórios e pesquisadores, isso significa: > você pode avaliar modelos em trabalho de engenharia genuíno, não em quebra-cabeças de leetcode. > você obtém ambientes compatíveis com o Harbor e ferramentas de avaliação modernas para comparação lado a lado. > você pode usar as mesmas tarefas para SFT e RL, de modo que o treinamento e a avaliação permaneçam ancorados em fluxos de trabalho de engenharia reais. Hoje estamos abrindo contribuições e começando a coletar tarefas através do Cline Provider. A participação é opcional e limitada a repositórios de código aberto. Quando uma tarefa difícil confunde um modelo e você intervém, essa falha pode ser transformada em um ambiente padronizado que toda a comunidade pode estudar, avaliar e treinar. Se você trabalha em problemas difíceis de código aberto, especialmente OSS comercial, gostaria de convidá-lo pessoalmente a ajudar. Estamos comprometidos em patrocinar $1M para mantenedores de código aberto participarem da iniciativa cline-bench. "O cline-bench é um ótimo exemplo de como benchmarks abertos e do mundo real podem avançar todo o ecossistema. Tarefas de codificação de alta qualidade e verificadas, ancoradas em fluxos de trabalho reais de desenvolvedores, são exatamente o que precisamos para medir de forma significativa modelos de ponta, descobrir modos de falha e impulsionar o estado da arte." – @shyamalanadkat, Chefe de Avaliações Aplicadas @OpenAI "A Nous Research está focada em treinar e proliferar modelos que se destacam em tarefas do mundo real. O cline-bench será uma ferramenta integral em nossos esforços para maximizar o desempenho e entender as capacidades de nossos modelos." – @Teknium, Chefe de Pós-Treinamento @nousresearch "Somos grandes fãs de tudo o que a Cline tem feito para capacitar o ecossistema de IA de código aberto e estamos incrivelmente empolgados em apoiar o lançamento do cline-bench. Ambientes abertos de alta qualidade para codificação agentic são extremamente raros. Este lançamento irá longe tanto como uma avaliação de capacidades quanto como um campo de testes pós-treinamento para tarefas desafiadoras do mundo real, avançando nossa compreensão coletiva e capacidades em torno do desenvolvimento de software autônomo." – @willccbb, Líder de Pesquisa @PrimeIntellect: "Compartilhamos o compromisso da Cline com o código aberto e acreditamos que tornar este benchmark disponível para todos nos ajudará a continuar a impulsionar as capacidades de codificação de ponta de nossos LLMs." – @b_roziere, Cientista de Pesquisa @MistralAI: Todos os detalhes estão no blog: