Gemini 3 Flash má v současnosti nejvyšší úspěšnost OpenClaw na PinchBench, a to 95,1 %. PinchBench je otevřený benchmark, který hodnotí, jak modely fungují s OpenClaw v reálných situacích. Zaměřuje se spíše na praktické využití než na izolované testy schopností. Úkoly zahrnují psaní kódu, správu souborů, plánování a výzkum. PinchBench se zaměřuje na věci jako: - Používání nástrojů. Může model volat správné nástroje se správnými parametry? - Vícestupňové uvažování. Může řetězit akce pro dokončení složitých úkolů? - Skutečný nepořádek. Zvládne nejednoznačné instrukce a neúplné informace? - Praktické výsledky. Vytvořil soubor skutečně, poslal e-mail nebo naplánoval schůzku? Celý žebříček níže. 1/2