Một công ty trị giá 800 triệu đô la tồn tại vì các đánh giá (evals) đã bị hỏng đến mức người sáng lập phải xây dựng cùng một công cụ nội bộ hai lần, tại hai công ty khác nhau, trước khi có ai đó sẵn sàng trả tiền cho nó. Đầu tiên tại công ty khởi nghiệp của chính anh ấy. Sau đó lại một lần nữa khi dẫn dắt đội ngũ AI tại Figma. Cùng một vấn đề cả hai lần: các đội ngũ phát triển tính năng AI không có cách nào có cấu trúc để biết liệu các đầu ra có tốt hơn hay tệ hơn. Họ chỉ kiểm tra cảm giác. Đọc đầu ra một cách thủ công. Đoán. > Đó là cách BrainTrust bắt đầu. Và bây giờ Vercel, Replit, Ramp, Zapier, Notion và Airtable đều sử dụng nó. Con số mà làm thay đổi cách nhìn nhận này: các công ty có sản phẩm AI thực sự hoạt động đang thực hiện 12.8 thí nghiệm đánh giá mỗi ngày. Hãy nghĩ về nhịp độ đó. Hầu hết các đội ngũ AI mà tôi nói chuyện không thực hiện 12.8 thí nghiệm mỗi tháng. Khung đánh giá đơn giản hơn những gì mọi người mong đợi. Mỗi đánh giá là ba thứ: một tập hợp các đầu vào mà sản phẩm của bạn xử lý, một nhiệm vụ tạo ra đầu ra, và một hàm điểm số tạo ra một số giữa 0 và 1. Trong tập này, chúng tôi đã xây dựng một cái từ đầu trên camera. Điểm số đã tăng từ 0 lên 0.75 trong chưa đầy 20 phút. Các đánh giá đang trở thành PRD mới. Các PM xây dựng cơ sở hạ tầng đánh giá bây giờ sẽ làm tăng chất lượng sản phẩm theo cách mà các PM chỉ kiểm tra cảm giác không thể nào đạt được. Khoảng cách đã bắt đầu mở ra.