Gemini 3 Flash visar för närvarande den högsta framgångsgraden för OpenClaw på PinchBench, med 95,1 %. PinchBench är ett öppet benchmark som utvärderar hur modeller presterar med OpenClaw i verkliga scenarier. Den fokuserar på praktisk användning snarare än isolerade kapacitetstester. Uppgifterna inkluderar att skriva kod, hantera filer, schemalägga och forska. PinchBench tittar på saker som: - Verktygsanvändning. Kan modellen anropa rätt verktyg med rätt parametrar? - Flerstegsresonemang. Kan den kedja ihop handlingar för att slutföra komplexa uppgifter? - Verklig röra. Klarar den av otydliga instruktioner och ofullständig information? - Praktiska resultat. Skapade den faktiskt filen, skickade mejlet eller bokade mötet? Fullständig topplista nedan. 1/2