Et selskap verdt 800 millioner dollar eksisterer fordi evalueringene var så ødelagte at grunnleggeren måtte bygge det samme interne verktøyet to ganger, hos to forskjellige selskaper, før noen ville betale for det. Først hos sin egen oppstartsbedrift. Men igjen leder han AI-teamet hos Figma. Samme problem begge ganger: teamene som lanserte AI-funksjoner hadde ingen strukturert måte å vite om resultatene ble bedre eller dårligere. De sjekket stemningen. Manuell lesing av utganger. Gjetter. > Slik startet BrainTrust. Og nå bruker Vercel, Replit, Ramp, Zapier, Notion og Airtable det alle. Tallet som omformulerer dette: selskapene hvis AI-produkter faktisk fungerer, kjører 12,8 evalueringseksperimenter per dag. Tenk på den rytmen. De fleste AI-team jeg snakker med kjører ikke 12,8 per måned. Rammeverket er enklere enn folk tror. Hver evaluering består av tre ting: et sett med input produktet ditt håndterer, en oppgave som genererer output, og en poenggivende funksjon som gir et tall mellom 0 og 1. I denne episoden bygde vi en fra bunnen av foran kamera. Poengsummen gikk fra 0 til 0,75 på under 20 minutter. Evalueringer blir den nye PRD-en. PM-ene som bygger evalueringsinfrastrukturen nå, kommer til å forsterke produktkvaliteten på en måte som PM-er som fortsetter å sjekke stemningen rett og slett ikke kan matche. Gapet er allerede i ferd med å åpne seg.