Sebuah perusahaan senilai $800 juta ada karena eval sangat rusak sehingga pendiri harus membangun alat internal yang sama dua kali, di dua perusahaan berbeda, sebelum ada yang membayarnya. Pertama di startupnya sendiri. Kemudian lagi memimpin tim AI di Figma. Masalah yang sama kedua kali: tim yang mengirimkan fitur AI tidak memiliki cara terstruktur untuk mengetahui apakah outputnya semakin baik atau lebih buruk. Mereka memeriksa getaran. Membaca output secara manual. Menebak. > Begitulah cara BrainTrust dimulai. Dan sekarang Vercel, Replit, Ramp, Zapier, Notion, dan Airtable semuanya menggunakannya. Angka yang membingkai ulang ini: perusahaan yang produk AI-nya benar-benar berfungsi menjalankan 12,8 eksperimen evaluasi per hari. Pikirkan tentang irama itu. Sebagian besar tim AI yang saya ajak bicara tidak menjalankan 12,8 per bulan. Kerangka kerjanya lebih sederhana dari yang diharapkan orang. Setiap evaluasi adalah tiga hal: sekumpulan input yang ditangani produk Anda, tugas yang menghasilkan output, dan fungsi penilaian yang menghasilkan angka antara 0 dan 1. Dalam episode ini, kami membangunnya dari awal di depan kamera. Skor berubah dari 0 menjadi 0,75 dalam waktu kurang dari 20 menit. Evals menjadi PRD baru. PM yang membangun infrastruktur eval sekarang akan menggabungkan kualitas produk dengan cara yang tidak dapat ditandingi oleh PM yang terus memeriksa getaran. Celah sudah terbuka.