Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Flash наразі демонструє найвищий рівень успішності OpenClaw на PinchBench — 95,1%.
PinchBench — це відкритий бенчмарк, який оцінює, як моделі працюють з OpenClaw у реальних ситуаціях. Вона зосереджена на практичному використанні, а не на ізольованих тестах можливостей.
Завдання включають написання коду, управління файлами, планування та дослідження.
PinchBench розглядає такі речі, як:
- Використання інструментів. Чи може модель викликати потрібні інструменти з правильними параметрами?
- Багатокрокове мислення. Чи може він поєднувати дії ланцюгом для виконання складних завдань?
- Справжній безлад. Чи може він справлятися з неоднозначними інструкціями та неповною інформацією?
- Практичні результати. Чи дійсно він створив файл, надіслав лист або призначив зустріч?
Повна таблиця лідерів нижче.
1/2

Найкращі
Рейтинг
Вибране
