Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Flash obecnie pokazuje najwyższy wskaźnik sukcesu dla OpenClaw na PinchBench, wynoszący 95,1 %.
PinchBench to otwarty benchmark, który ocenia, jak modele radzą sobie z OpenClaw w rzeczywistych scenariuszach. Skupia się na praktycznym użytkowaniu, a nie na izolowanych testach zdolności.
Zadania obejmują pisanie kodu, zarządzanie plikami, planowanie i badania.
PinchBench zwraca uwagę na takie rzeczy jak:
- Użycie narzędzi. Czy model potrafi wywołać odpowiednie narzędzia z odpowiednimi parametrami?
- Rozumowanie wieloetapowe. Czy potrafi połączyć działania, aby wykonać złożone zadania?
- Rzeczywisty bałagan. Czy potrafi poradzić sobie z niejednoznacznymi instrukcjami i niekompletnymi informacjami?
- Praktyczne wyniki. Czy rzeczywiście stworzył plik, wysłał e-mail lub zaplanował spotkanie?
Pełna tabela wyników poniżej.
1/2

Najlepsze
Ranking
Ulubione
