Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Flash zeigt derzeit die höchste Erfolgsquote für OpenClaw auf PinchBench mit 95,1 %.
PinchBench ist ein offenes Benchmark, das bewertet, wie Modelle mit OpenClaw in realen Szenarien abschneiden. Es konzentriert sich auf die praktische Nutzung und nicht auf isolierte Fähigkeitstests.
Die Aufgaben umfassen das Schreiben von Code, das Verwalten von Dateien, das Planen und die Recherche.
PinchBench betrachtet Dinge wie:
- Werkzeugnutzung. Kann das Modell die richtigen Werkzeuge mit den richtigen Parametern aufrufen?
- Mehrstufiges Denken. Kann es Aktionen verknüpfen, um komplexe Aufgaben zu erledigen?
- Unordnung in der realen Welt. Kann es mit mehrdeutigen Anweisungen und unvollständigen Informationen umgehen?
- Praktische Ergebnisse. Hat es tatsächlich die Datei erstellt, die E-Mail gesendet oder das Meeting geplant?
Die vollständige Rangliste finden Sie unten.
1/2

Top
Ranking
Favoriten
