800 milyon dolarlık bir şirket, değerlendirmeler o kadar bozuk olduğu için kurucusunun aynı dahili aracı iki farklı şirkette iki kez inşa etmek zorunda kalması nedeniyle var oluyor. İlk olarak kendi girişiminde. Sonra yine Figma'daki yapay zeka ekibine liderlik etmek. Her iki durumda da aynı sorun vardı: yapay zeka özellikleri sunan ekiplerin çıktıların iyileşip kötüleşmediğini anlamak için yapılandırılmış bir yolu yoktu. Atmosfer kontrol ediyorlardı. Çıkışları manuel okumak. Tahmin ediyorum. > BrainTrust böyle başladı. Ve şimdi Vercel, Replit, Ramp, Zapier, Notion ve Airtable hepsi bunu kullanıyor. Bunu yeniden çerçeveleyen sayı: Yapay zeka ürünleri gerçekten çalışan şirketler günde 12,8 değerlendirme deneyi yürütüyor. O ritmi düşünün. Konuştuğum çoğu yapay zeka ekipleri ayda 12.8 çalıştırmıyor. Çerçeve, insanların beklediğinden daha basit. Her değerlendirme üç şeyden oluşur: ürününüzün işlediği bir girdi kümesi, çıktı üreten bir görev ve 0 ile 1 arasında bir sayı üreten bir puanlama fonksiyonu. Bu bölümde, kamerada sıfırdan bir tane inşa ettik. Skor 0'dan 0.75'e 20 dakikadan kısa sürede çıktı. Değerlendirmeler yeni PRD haline geliyor. Şu anda değerlendirme altyapısı inşa eden PM'ler, ürün kalitesini öyle bir şekilde artıracaklar ki, sürekli vibe kontrolü yapan PM'ler buna ulaşamayacak. Boşluk zaten açılıyor.