Gemini 3 Flash attualmente mostra il tasso di successo più alto per OpenClaw su PinchBench, al 95,1 %. PinchBench è un benchmark aperto che valuta come i modelli si comportano con OpenClaw in scenari del mondo reale. Si concentra sull'uso pratico piuttosto che su test di capacità isolati. I compiti includono scrivere codice, gestire file, pianificare e fare ricerche. PinchBench considera aspetti come: - Utilizzo degli strumenti. Il modello può chiamare gli strumenti giusti con i parametri giusti? - Ragionamento a più passaggi. Può concatenare azioni per completare compiti complessi? - Caos del mondo reale. Può gestire istruzioni ambigue e informazioni incomplete? - Risultati pratici. Ha effettivamente creato il file, inviato l'email o pianificato la riunione? Classifica completa qui sotto. 1/2