我們正在開源 BrowseComp(“瀏覽競賽”),這是一個新的、具有挑戰性的基準測試,旨在測試 AI 代理瀏覽互聯網以查找難以找到的資訊的能力。 這就像一場在線尋寶遊戲......但對於流覽代理。
920.39K