Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Flash arată în prezent cea mai mare rată de succes pentru OpenClaw pe PinchBench, de 95,1%.
PinchBench este un benchmark deschis care evaluează modul în care modelele funcționează cu OpenClaw în scenarii reale. Se concentrează pe utilizarea practică, nu pe teste izolate de capabilități.
Sarcinile includ scrierea codului, gestionarea fișierelor, programarea și cercetarea.
PinchBench analizează lucruri precum:
- Utilizarea uneltelor. Poate modelul să apeleze uneltele potrivite cu parametrii potriviți?
- Raționament în mai mulți pași. Poate lanța acțiuni pentru a finaliza sarcini complexe?
- Dezordine din lumea reală. Poate gestiona instrucțiuni ambigue și informații incomplete?
- Rezultate practice. A creat efectiv fișierul, a trimis emailul sau a programat întâlnirea?
Clasamentul complet mai jos.
1/2

Limită superioară
Clasament
Favorite
