Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gemini 3 Flash hiện đang cho thấy tỷ lệ thành công cao nhất cho OpenClaw trên PinchBench, đạt 95,1 %.
PinchBench là một chuẩn mở đánh giá cách mà các mô hình hoạt động với OpenClaw trong các tình huống thực tế. Nó tập trung vào việc sử dụng thực tế hơn là các bài kiểm tra khả năng riêng lẻ.
Các nhiệm vụ bao gồm viết mã, quản lý tệp, lập lịch và nghiên cứu.
PinchBench xem xét những điều như:
- Sử dụng công cụ. Mô hình có thể gọi đúng công cụ với các tham số đúng không?
- Lý luận nhiều bước. Nó có thể kết nối các hành động để hoàn thành các nhiệm vụ phức tạp không?
- Sự lộn xộn trong thế giới thực. Nó có thể xử lý các hướng dẫn mơ hồ và thông tin không đầy đủ không?
- Kết quả thực tế. Nó có thực sự tạo ra tệp, gửi email, hoặc lập lịch cuộc họp không?
Bảng xếp hạng đầy đủ bên dưới.
1/2

Hàng đầu
Thứ hạng
Yêu thích
