我们将发布 BrowseComp,代表浏览竞争。 🏎️ 可以把它想象成编程或数学竞赛——虽然这些比赛可能并不能完美反映现实世界的软件工程或数学研究,但它们确实捕捉到了一丝智慧。 这是我们在评估深度研究类浏览代理的智能时应该关注的基准。
OpenAI
OpenAI2025年4月11日
我们正在开源 BrowseComp(“浏览竞争”),这是一个新的、具有挑战性的基准,旨在测试 AI 代理在互联网上查找难以定位的信息的能力。 这就像一个在线寻宝游戏……但针对浏览代理。
464.62K