Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wydajemy BrowseComp, co oznacza Konkurs Przeglądania. 🏎️
Pomyśl o tym jak o konkursach programistycznych lub matematycznych — chociaż te zawody mogą nie odzwierciedlać idealnie rzeczywistej pracy SWE lub badań matematycznych, to jednak uchwycają iskrę inteligencji.
To jest TEN benchmark, na którym powinniśmy się skupić oceniając inteligencję agentów przeglądania przypominających głębokie badania.

11 kwi 2025
Udostępniamy kod źródłowy BrowseComp („Konkurs Przeglądania”), nowego, wymagającego benchmarku zaprojektowanego do testowania, jak dobrze agenci AI potrafią przeszukiwać internet w celu znalezienia trudno dostępnych informacji.
To jak internetowe polowanie na skarby... ale dla agentów przeglądających.
464,63K
Najlepsze
Ranking
Ulubione