热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们将发布 BrowseComp,代表浏览竞争。 🏎️
可以把它想象成编程或数学竞赛——虽然这些比赛可能并不能完美反映现实世界的软件工程或数学研究,但它们确实捕捉到了一丝智慧。
这是我们在评估深度研究类浏览代理的智能时应该关注的基准。

2025年4月11日
我们正在开源 BrowseComp(“浏览竞争”),这是一个新的、具有挑战性的基准,旨在测试 AI 代理在互联网上查找难以定位的信息的能力。
这就像一个在线寻宝游戏……但针对浏览代理。
464.62K
热门
排行
收藏