OpenAI telah menjelaskan bahwa eval harus "membuat tujuan kabur spesifik dan eksplisit," dan bahwa eval perbatasan perlu dipasangkan dengan eval kontekstual yang cocok dengan alur kerja nyata alih-alih taman bermain yang cepat: Apa yang dijelaskan @shyamalanadkat, Kepala Evals Terapan @OpenAI, ada lingkaran yang sama yang kami inginkan untuk agen pengkodean dengan cline-bench: serangkaian tugas pengkodean dunia nyata yang sulit di mana model berjuang dan manusia harus campur tangan, dikemas sebagai lingkungan yang dapat direproduksi sehingga laboratorium dan tim dapat menentukan seperti apa "hebat", mengukur kinerja dalam kondisi nyata, dan meningkatkan dengan belajar dari kasus kegagalan konkret: Jika Anda menginginkan konteks lengkap tentang bagaimana OpenAI berpikir tentang eval, primer ada di sini: