OpenAI 已明确表示,评估应该 "将模糊目标具体化和明确化",而前沿评估需要与匹配真实工作流程的上下文评估配对,而不是提示游乐场: @shyamalanadkat,OpenAI 应用评估负责人所描述的,是我们希望为编码代理与 cline-bench 实现的相同循环:一组共享的黄金集,包含困难的、真实世界的编码任务,在这些任务中,模型遇到了困难,人类不得不介入,打包成可重复的环境,以便实验室和团队可以指定什么是 "优秀",在真实条件下测量性能,并通过学习具体的失败案例来改进: 如果你想了解 OpenAI 如何看待评估的完整背景,入门指南在这里: