Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Flash toont momenteel de hoogste succesratio voor OpenClaw op PinchBench, met 95,1 %.
PinchBench is een open benchmark die evalueert hoe modellen presteren met OpenClaw in real-world scenario's. Het richt zich op praktisch gebruik in plaats van geïsoleerde capaciteits tests.
Taken omvatten het schrijven van code, het beheren van bestanden, het plannen en onderzoek.
PinchBench kijkt naar zaken zoals:
- Hulpmiddelgebruik. Kan het model de juiste hulpmiddelen aanroepen met de juiste parameters?
- Meervoudige redenatie. Kan het acties aan elkaar koppelen om complexe taken te voltooien?
- Real-world rommeligheid. Kan het omgaan met vage instructies en onvolledige informatie?
- Praktische uitkomsten. Heeft het daadwerkelijk het bestand aangemaakt, de e-mail verzonden of de vergadering gepland?
Volledige ranglijst hieronder.
1/2

Boven
Positie
Favorieten
