Đây là một trường hợp sử dụng tuyệt vời cho evals. Khách hàng luôn nên nhận được các triển khai mô hình chất lượng cao nhất, và dữ liệu là cách tốt nhất để phân biệt. Rất vui vì openbench đã hữu ích ở đây 🫡🫡