Harness Ide meta-benchmark: Kumpulan harness agen dasar (AGENTS.md, dokumen, keterampilan, kait) yang merangkum aplikasi non-sepele, masing-masing dengan satu prompt untuk terraform aplikasi dalam satu bidikan mulai dari awal. Ketika agen atau model pengkodean baru keluar, kita dapat berlari melawan harness untuk membandingkan langsung dengan versi model sebelumnya. "Model ini menulis browser dari awal dari harness browser standar dengan kelengkapan fitur X% dan hanya baris kode Y dalam jam Z selama $XYZ." Bayangkan melihat Kursor browser dikembangkan melalui lensa setiap pembaruan model berikutnya. Seberapa bagus kodenya? Seberapa cepat renderer? Seberapa lengkap set fitur tersebut? Berapa lama agen harus berjalan? Berapa biaya token secara menyeluruh? Semacam CSS Zen Garden (yang melakukan banyak hal untuk mendorong standar browser) untuk harness agen. Saya merasa kita semua telah mengalami perbedaan dalam Codex 5.4 Extra High (jika tidak, berhenti membaca posting ini dan segera coba), tetapi kita masih belum memiliki cara untuk menangkap dalam tolok ukur pengalaman kualitatif menggunakannya sebagai pengembang, terutama untuk langkah-langkah seperti arsitektur dan kualitas kode.