Gemini 3 Flash в настоящее время демонстрирует самый высокий уровень успеха для OpenClaw на PinchBench, составив 95,1 %. PinchBench — это открытый бенчмарк, который оценивает, как модели работают с OpenClaw в реальных сценариях. Он сосредоточен на практическом использовании, а не на изолированных тестах возможностей. Задачи включают написание кода, управление файлами, планирование и исследование. PinchBench рассматривает такие вещи, как: - Использование инструментов. Может ли модель вызывать правильные инструменты с правильными параметрами? - Многоступенчатое рассуждение. Может ли она связывать действия для выполнения сложных задач? - Реальная неразбериха. Может ли она справляться с неоднозначными инструкциями и неполной информацией? - Практические результаты. Создала ли она файл, отправила ли электронное письмо или запланировала встречу? Полный рейтинг ниже. 1/2