热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们宣布了 cline-bench,这是一个真实世界的开源基准,用于代理编码。
cline-bench 是由参与开发者的真实工程任务构建的,在这些任务中,前沿模型失败了,人类不得不介入。
每个被接受的任务都成为一个完全可重现的强化学习环境,包含一个起始的代码库快照、一个真实的提示和最终交付代码的真实测试。
对于实验室和研究人员,这意味着:
> 你可以在真实的工程工作上评估模型,而不是 leetcode 难题。
> 你可以获得与 Harbor 和现代评估工具兼容的环境,以便进行并排比较。
> 你可以使用相同的任务进行 SFT 和 RL,因此训练和评估始终与真实的工程工作流程保持一致。
今天,我们开始开放贡献,并通过 Cline Provider 开始收集任务。参与是自愿的,并且仅限于开源代码库。
当一个困难的任务让模型感到困惑,而你介入时,这种失败可以转化为一个标准化的环境,整个社区都可以研究、基准测试和训练。
如果你在处理困难的开源问题,特别是商业 OSS,我想亲自邀请你来帮助我们。我们承诺提供 100 万美元来赞助开源维护者参与 cline-bench 计划。
"Cline-bench 是一个很好的例子,说明开放的、真实世界的基准如何推动整个生态系统向前发展。高质量、经过验证的编码任务,基于实际开发者的工作流程,正是我们需要的,以有意义地衡量前沿模型,揭示失败模式,并推动技术的进步。"
– @shyamalanadkat,OpenAI 应用评估负责人
"Nous Research 专注于训练和推广在真实世界任务中表现出色的模型。cline-bench 将成为我们努力最大化模型性能和理解能力的重要工具。"
– @Teknium,nousresearch 后训练负责人
"我们是 Cline 所做的一切以赋能开源 AI 生态系统的忠实粉丝,并对支持 cline-bench 发布感到无比兴奋。高质量的开放环境用于代理编码是极其稀有的。此次发布将大大推动我们对能力的评估,并作为一个后训练测试平台,处理具有挑战性的真实世界任务,提升我们对自主软件开发的集体理解和能力。"
– @willccbb,PrimeIntellect 研究负责人
"我们与 Cline 一致致力于开源,并相信将这个基准提供给所有人将帮助我们继续推动 LLM 的前沿编码能力。"
– @b_roziere,MistralAI 研究科学家
完整细节请见博客:

热门
排行
收藏

