我們發佈了 BrowseComp,它代表瀏覽競爭。🏎️ 把它想像成編碼或數學競賽——雖然這些競賽可能無法完美地反映現實世界的SWE或數學研究,但它們確實捕捉到了智慧的火花。 這是我們在評估類似深度研究的流覽代理的情報時應該關心的基準。
OpenAI
OpenAI2025年4月11日
我們正在開源 BrowseComp(“瀏覽競賽”),這是一個新的、具有挑戰性的基準測試,旨在測試 AI 代理瀏覽互聯網以查找難以找到的資訊的能力。 這就像一場在線尋寶遊戲......但對於流覽代理。
464.6K