Kesenjangan antara demo AI dan produk AI yang benar-benar berfungsi bukanlah modelnya. Ini apakah tim Anda memiliki disiplin eval. Sebagian besar fitur AI dikirimkan pada pemeriksaan getaran. Seseorang menulis prompt, outputnya terlihat masuk akal, itu masuk ke produksi. Tiga minggu kemudian kasus tepi mulai bertambah dan tidak ada yang memiliki cara sistematis untuk mengukur apa yang rusak atau mengapa. Tim yang maju memperlakukan evals dengan cara tim produk terbaik memperlakukan eksperimen lima tahun lalu. Bukan sebagai langkah QA di akhir. Sebagai lingkaran pengambilan keputusan inti. Setiap perubahan prompt, setiap pertukaran model, setiap pengeditan prompt sistem mendapat skor antara 0 dan 1 sebelum dikirim. Ankur Goyal membangun BrainTrust di sekitar tesis ini ketika kebanyakan orang skeptis bahwa evals bahkan akan penting. Skeptisisme itu menua dengan buruk. BrainTrust sekarang mendukung infrastruktur eval untuk Vercel, Replit, Ramp, Zapier, Notion, dan Airtable. Penilaian $ 800 juta. Angka yang melekat pada saya: mereka membangun eval dari nol di depan kamera dan mengambil skor dari 0 menjadi 0,75 dalam waktu kurang dari 20 menit. Itulah bagian yang dilewatkan sebagian besar tim. Evals tidak mahal untuk dibangun. Mereka mahal untuk dilewati. Keterampilan PM yang muncul dari ini adalah desain eval. Mengetahui input apa yang harus diuji, seperti apa "baik" sebagai angka, dan bagaimana mengulangi fungsi penilaian. Ini adalah pergeseran keterampilan yang sama yang terjadi ketika "berbasis data" berhenti menjadi kata kunci dan menjadi filter perekrutan. Jika Anda mengirimkan fitur AI dan proses kualitas Anda adalah "apakah ini terlihat tepat bagi saya", Anda sedang membangun demo-ware.