Wydajemy BrowseComp, co oznacza Konkurs Przeglądania. 🏎️ Pomyśl o tym jak o konkursach programistycznych lub matematycznych — chociaż te zawody mogą nie odzwierciedlać idealnie rzeczywistej pracy SWE lub badań matematycznych, to jednak uchwycają iskrę inteligencji. To jest TEN benchmark, na którym powinniśmy się skupić oceniając inteligencję agentów przeglądania przypominających głębokie badania.
OpenAI
OpenAI11 kwi 2025
Udostępniamy kod źródłowy BrowseComp („Konkurs Przeglądania”), nowego, wymagającego benchmarku zaprojektowanego do testowania, jak dobrze agenci AI potrafią przeszukiwać internet w celu znalezienia trudno dostępnych informacji. To jak internetowe polowanie na skarby... ale dla agentów przeglądających.
464,63K