Gemini 3 Flash affiche actuellement le taux de réussite le plus élevé pour OpenClaw sur PinchBench, à 95,1 %. PinchBench est un benchmark ouvert qui évalue comment les modèles se comportent avec OpenClaw dans des scénarios du monde réel. Il se concentre sur l'utilisation pratique plutôt que sur des tests de capacité isolés. Les tâches incluent l'écriture de code, la gestion de fichiers, la planification et la recherche. PinchBench examine des éléments tels que : - Utilisation des outils. Le modèle peut-il appeler les bons outils avec les bons paramètres ? - Raisonnement multi-étapes. Peut-il enchaîner des actions pour accomplir des tâches complexes ? - Désordre du monde réel. Peut-il gérer des instructions ambiguës et des informations incomplètes ? - Résultats pratiques. A-t-il réellement créé le fichier, envoyé l'email ou planifié la réunion ? Classement complet ci-dessous. 1/2