這是一個很棒的 evals 使用案例。客戶應該始終獲得最高品質的模型實現,而數據是區分的最佳方式。 很高興 openbench 在這裡有用 🫡🫡