Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

pash
Atualmente Chefe de @cline de IA | prev @meta gráfico de conhecimento | Criador de Vault // @usc Alum
Foram 48 horas intensas para mim e para a minha equipa.
Para ser claro, não vou pedir desculpas por fazer uma piada inofensiva sobre hackathons cheirando mal. Fui a 4 este ano, todos cheiravam mal.
Espero uma desculpa de pessoas como @deedydas, com quem tive inúmeras interações positivas. Em vez de serem generosos comigo, dando-me um simulacro de graça, eles se juntaram a outros e facilitaram mais ameaças de morte violentas e verdadeiramente odiosas contra mim, minha família e minha equipa.
Isto é ridículo, e parece que com o X sendo monetizado, as pessoas estão incentivadas a provocar raiva e amplificar ameaças violentas sem sentido nesta plataforma.
@elonmusk não era todo o ponto da sua aquisição do twitter permitir que nós fizéssemos piadas e nos divertíssemos em paz? Parece que não está a funcionar.
Obrigado a todas as pessoas razoáveis que estiveram ao meu lado. Agradeço a todos vocês.
215
Estamos a anunciar o cline-bench, um benchmark de código aberto do mundo real para codificação agentic.
O cline-bench é construído a partir de tarefas de engenharia do mundo real de desenvolvedores participantes onde modelos de ponta falharam e os humanos tiveram que intervir.
Cada tarefa aceita torna-se um ambiente RL totalmente reproduzível com um instantâneo do repositório inicial, um prompt real e testes de verdade a partir do código que, em última análise, foi enviado.
Para laboratórios e pesquisadores, isso significa:
> você pode avaliar modelos em trabalho de engenharia genuíno, não em quebra-cabeças de leetcode.
> você obtém ambientes compatíveis com o Harbor e ferramentas de avaliação modernas para comparação lado a lado.
> você pode usar as mesmas tarefas para SFT e RL, de modo que o treinamento e a avaliação permaneçam ancorados em fluxos de trabalho de engenharia reais.
Hoje estamos abrindo contribuições e começando a coletar tarefas através do Cline Provider. A participação é opcional e limitada a repositórios de código aberto.
Quando uma tarefa difícil confunde um modelo e você intervém, essa falha pode ser transformada em um ambiente padronizado que toda a comunidade pode estudar, avaliar e treinar.
Se você trabalha em problemas difíceis de código aberto, especialmente OSS comercial, gostaria de convidá-lo pessoalmente a ajudar. Estamos comprometidos em patrocinar $1M para mantenedores de código aberto participarem da iniciativa cline-bench.
"O cline-bench é um ótimo exemplo de como benchmarks abertos e do mundo real podem avançar todo o ecossistema. Tarefas de codificação de alta qualidade e verificadas, ancoradas em fluxos de trabalho reais de desenvolvedores, são exatamente o que precisamos para medir de forma significativa modelos de ponta, descobrir modos de falha e impulsionar o estado da arte."
– @shyamalanadkat, Chefe de Avaliações Aplicadas @OpenAI
"A Nous Research está focada em treinar e proliferar modelos que se destacam em tarefas do mundo real. O cline-bench será uma ferramenta integral em nossos esforços para maximizar o desempenho e entender as capacidades de nossos modelos."
– @Teknium, Chefe de Pós-Treinamento @nousresearch
"Somos grandes fãs de tudo o que a Cline tem feito para capacitar o ecossistema de IA de código aberto e estamos incrivelmente empolgados em apoiar o lançamento do cline-bench. Ambientes abertos de alta qualidade para codificação agentic são extremamente raros. Este lançamento irá longe tanto como uma avaliação de capacidades quanto como um campo de testes pós-treinamento para tarefas desafiadoras do mundo real, avançando nossa compreensão coletiva e capacidades em torno do desenvolvimento de software autônomo."
– @willccbb, Líder de Pesquisa @PrimeIntellect:
"Compartilhamos o compromisso da Cline com o código aberto e acreditamos que tornar este benchmark disponível para todos nos ajudará a continuar a impulsionar as capacidades de codificação de ponta de nossos LLMs."
– @b_roziere, Cientista de Pesquisa @MistralAI:
Todos os detalhes estão no blog:

469
Top
Classificação
Favoritos

