Kết quả benchmark rất thú vị cho @openclaw LLM tốt nhất Bài kiểm tra: Tỷ lệ phần trăm các nhiệm vụ hoàn thành thành công qua các bài kiểm tra chuẩn hóa của tác nhân OpenClaw Kết quả gây bất ngờ với tôi, kimi 2.5 đứng trên Anthopic Minimax 2.1 ở vị trí #3 Các mô hình Al Qwen thì khá tệ