Gemini 3 Flash viser for øyeblikket den høyeste suksessraten for OpenClaw på PinchBench, med 95,1 %. PinchBench er en åpen benchmark som evaluerer hvordan modeller presterer med OpenClaw i virkelige scenarioer. Den fokuserer på praktisk bruk fremfor isolerte kapasitetstester. Oppgaver inkluderer å skrive kode, administrere filer, planlegge og undersøke. PinchBench ser på ting som: - Verktøybruk. Kan modellen kalle de riktige verktøyene med riktige parametere? - Flertrinns resonnement. Kan den kjede handlinger for å fullføre komplekse oppgaver? - Rot i den virkelige verden. Kan den håndtere tvetydige instruksjoner og ufullstendig informasjon? - Praktiske resultater. Opprettet den faktisk filen, sendte e-posten, eller planla møtet? Full toppliste nedenfor. 1/2