Gemini 3 Flash obecnie pokazuje najwyższy wskaźnik sukcesu dla OpenClaw na PinchBench, wynoszący 95,1 %. PinchBench to otwarty benchmark, który ocenia, jak modele radzą sobie z OpenClaw w rzeczywistych scenariuszach. Skupia się na praktycznym użytkowaniu, a nie na izolowanych testach zdolności. Zadania obejmują pisanie kodu, zarządzanie plikami, planowanie i badania. PinchBench zwraca uwagę na takie rzeczy jak: - Użycie narzędzi. Czy model potrafi wywołać odpowiednie narzędzia z odpowiednimi parametrami? - Rozumowanie wieloetapowe. Czy potrafi połączyć działania, aby wykonać złożone zadania? - Rzeczywisty bałagan. Czy potrafi poradzić sobie z niejednoznacznymi instrukcjami i niekompletnymi informacjami? - Praktyczne wyniki. Czy rzeczywiście stworzył plik, wysłał e-mail lub zaplanował spotkanie? Pełna tabela wyników poniżej. 1/2