Gemini 3 Flash saat ini menunjukkan tingkat keberhasilan tertinggi untuk OpenClaw di PinchBench, yaitu 95.1%. PinchBench adalah tolok ukur terbuka yang mengevaluasi bagaimana kinerja model dengan OpenClaw dalam skenario dunia nyata. Ini berfokus pada penggunaan praktis daripada tes kemampuan terisolasi. Tugasnya termasuk menulis kode, mengelola file, penjadwalan, dan penelitian. PinchBench melihat hal-hal seperti: - Penggunaan alat. Bisakah model memanggil alat yang tepat dengan parameter yang tepat? - Penalaran multi langkah. Bisakah itu merantai tindakan untuk menyelesaikan tugas yang kompleks? - Kekacauan dunia nyata. Bisakah itu menangani instruksi yang ambigu dan informasi yang tidak lengkap? - Hasil praktis. Apakah itu benar-benar membuat file, mengirim email, atau menjadwalkan rapat? Papan peringkat lengkap di bawah ini. 1/2