Există o companie de 800 de milioane de dolari pentru că evaluările erau atât de stricate încât fondatorul a trebuit să construiască aceeași unealtă internă de două ori, la două companii diferite, înainte ca cineva să plătească pentru ea. Mai întâi la propriul său startup. Apoi, din nou, conduc echipa AI la Figma. Aceeași problemă de ambele dăți: echipele care livrau funcții AI nu aveau o metodă structurată de a ști dacă rezultatele se îmbunătățeau sau se înrăutățeau. Au verificat vibrația. Citirea manuală a ieșirilor. Presupun. > Așa a început BrainTrust. Iar acum Vercel, Replit, Ramp, Zapier, Notion și Airtable îl folosesc toți. Numărul care reîncadrează situația: companiile ale căror produse AI funcționează efectiv derulează 12,8 experimente de evaluare pe zi. Gândește-te la acea cadență. Majoritatea echipelor AI cu care vorbesc nu rulează 12,8 pe lună. Cadrul este mai simplu decât se așteaptă oamenii. Fiecare evaluare înseamnă trei lucruri: un set de intrări pe care produsul tău le gestionează, o sarcină care generează ieșiri și o funcție de scor care produce un număr între 0 și 1. În acest episod, am construit unul de la zero, pe cameră. Scorul a trecut de la 0 la 0,75 în mai puțin de 20 de minute. Evaluările devin noul PRD. PM-ii care construiesc acum infrastructura de evaluare vor îmbunătăți calitatea produsului într-un mod pe care PM-ii care verifică vibe-ul pur și simplu nu îl pot egala. Golul deja se deschide.