一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们宣布了 cline-bench，这是一个真实世界的开源基准，用于代理编码。 cline-bench 是由参与开发者的真实工程任务构建的，在这些任务中，前沿模型失败了，人类不得不介入。每个被接受的任务都成为一个完全可重现的强化学习环境，包含一个起始的代码库快照、一个真实的提示和最终交付代码的真实测试。对于实验室和研究人员，这意味着： > 你可以在真实的工程工作上评估模型，而不是 leetcode 难题。 > 你可以获得与 Harbor 和现代评估工具兼容的环境，以便进行并排比较。 > 你可以使用相同的任务进行 SFT 和 RL，因此训练和评估始终与真实的工程工作流程保持一致。今天，我们开始开放贡献，并通过 Cline Provider 开始收集任务。参与是自愿的，并且仅限于开源代码库。当一个困难的任务让模型感到困惑，而你介入时，这种失败可以转化为一个标准化的环境，整个社区都可以研究、基准测试和训练。如果你在处理困难的开源问题，特别是商业 OSS，我想亲自邀请你来帮助我们。我们承诺提供 100 万美元来赞助开源维护者参与 cline-bench 计划。 "Cline-bench 是一个很好的例子，说明开放的、真实世界的基准如何推动整个生态系统向前发展。高质量、经过验证的编码任务，基于实际开发者的工作流程，正是我们需要的，以有意义地衡量前沿模型，揭示失败模式，并推动技术的进步。" – @shyamalanadkat，OpenAI 应用评估负责人 "Nous Research 专注于训练和推广在真实世界任务中表现出色的模型。cline-bench 将成为我们努力最大化模型性能和理解能力的重要工具。" – @Teknium，nousresearch 后训练负责人 "我们是 Cline 所做的一切以赋能开源 AI 生态系统的忠实粉丝，并对支持 cline-bench 发布感到无比兴奋。高质量的开放环境用于代理编码是极其稀有的。此次发布将大大推动我们对能力的评估，并作为一个后训练测试平台，处理具有挑战性的真实世界任务，提升我们对自主软件开发的集体理解和能力。" – @willccbb，PrimeIntellect 研究负责人 "我们与 Cline 一致致力于开源，并相信将这个基准提供给所有人将帮助我们继续推动 LLM 的前沿编码能力。" – @b_roziere，MistralAI 研究科学家完整细节请见博客：