Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Flash visar för närvarande den högsta framgångsgraden för OpenClaw på PinchBench, med 95,1 %.
PinchBench är ett öppet benchmark som utvärderar hur modeller presterar med OpenClaw i verkliga scenarier. Den fokuserar på praktisk användning snarare än isolerade kapacitetstester.
Uppgifterna inkluderar att skriva kod, hantera filer, schemalägga och forska.
PinchBench tittar på saker som:
- Verktygsanvändning. Kan modellen anropa rätt verktyg med rätt parametrar?
- Flerstegsresonemang. Kan den kedja ihop handlingar för att slutföra komplexa uppgifter?
- Verklig röra. Klarar den av otydliga instruktioner och ofullständig information?
- Praktiska resultat. Skapade den faktiskt filen, skickade mejlet eller bokade mötet?
Fullständig topplista nedan.
1/2

Topp
Rankning
Favoriter
