Yapay zeka demo-yazılımı ile gerçekten çalışan yapay zeka ürünleri arasındaki fark model değil. Takımınızın değerlendirme disiplini olup olmadığı önemlidir. Çoğu yapay zeka özelliği vibe kontrolüyle gelir. Biri bir prompt yazar, çıktı makul görünür, üretim aşamasına gider. Üç hafta sonra uç vakalar birikmeye başlar ve kimse neyin bozulduğunu veya nedenini sistematik olarak ölçemez. Önde giden ekipler, değerlendirmeleri, beş yıl önce en iyi ürün ekiplerinin deneylere yaptığı şekilde yaklaşıyor. Sonunda QA adımı olarak değil. Temel karar alma döngüsü olarak. Her istek değişikliği, her model değişimi, her sistem isteği düzenlemesi gönderilmeden önce 0 ile 1 arasında bir puan alıyor. Ankur Goyal, çoğu insanın değerlendirmelerin önemli olacağına şüpheyle yaklaştığı bir dönemde BrainTrust'u bu tez etrafında kurdu. Bu şüphecilik kötü yaşlandı. BrainTrust artık Vercel, Replit, Ramp, Zapier, Notion ve Airtable için değerlendirme altyapısını destekliyor. 800 milyon dolarlık değerleme. Aklımda kalan sayı: kamerada sıfırdan bir değerlendirme yaptılar ve skoru 0'dan 0.75'e 20 dakikadan kısa sürede çıkardılar. Çoğu takımın kaçırdığı kısım bu. Değerlendirmeler yapmak pahalı değil. Atlamaları pahalı. Bundan ortaya çıkan PM becerisi değerlendirme tasarımı. Hangi girdileri test edeceğini, "iyi"nin sayı olarak ne olduğunu ve puanlama fonksiyonunda nasıl yineleme yapılacağını bilmek. Bu, "veri odaklı" kelimesinin moda bir kelime olmaktan çıkıp işe alım filtresi haline gelmesiyle yaşanan aynı beceri değişimi. Eğer yapay zeka özellikleri gönderiyorsanız ve kalite süreciniz "bana doğru mu geliyor" ise, demo-yazılım geliştirmiş oluyorsunuz.