O Gemini 3 Flash atualmente mostra a maior taxa de sucesso para o OpenClaw no PinchBench, com 95,1 %. O PinchBench é um benchmark aberto que avalia como os modelos se comportam com o OpenClaw em cenários do mundo real. Ele se concentra no uso prático em vez de testes de capacidade isolados. As tarefas incluem escrever código, gerenciar arquivos, agendar e pesquisar. O PinchBench analisa coisas como: - Uso de ferramentas. O modelo consegue chamar as ferramentas certas com os parâmetros corretos? - Raciocínio em múltiplas etapas. Ele consegue encadear ações para completar tarefas complexas? - Desordem do mundo real. Ele consegue lidar com instruções ambíguas e informações incompletas? - Resultados práticos. Ele realmente criou o arquivo, enviou o e-mail ou agendou a reunião? Classificação completa abaixo. 1/2