我们正在开源 BrowseComp(“浏览竞争”),这是一个新的、具有挑战性的基准,旨在测试 AI 代理在互联网上查找难以定位的信息的能力。 这就像一个在线寻宝游戏……但针对浏览代理。
920.41K