Gemini 3 Flash наразі демонструє найвищий рівень успішності OpenClaw на PinchBench — 95,1%. PinchBench — це відкритий бенчмарк, який оцінює, як моделі працюють з OpenClaw у реальних ситуаціях. Вона зосереджена на практичному використанні, а не на ізольованих тестах можливостей. Завдання включають написання коду, управління файлами, планування та дослідження. PinchBench розглядає такі речі, як: - Використання інструментів. Чи може модель викликати потрібні інструменти з правильними параметрами? - Багатокрокове мислення. Чи може він поєднувати дії ланцюгом для виконання складних завдань? - Справжній безлад. Чи може він справлятися з неоднозначними інструкціями та неповною інформацією? - Практичні результати. Чи дійсно він створив файл, надіслав лист або призначив зустріч? Повна таблиця лідерів нижче. 1/2