Uma empresa de $800M existe porque as avaliações estavam tão quebradas que o fundador teve que construir a mesma ferramenta interna duas vezes, em duas empresas diferentes, antes que alguém pagasse por isso. Primeiro na sua própria startup. Depois novamente liderando a equipe de IA na Figma. O mesmo problema ambas as vezes: as equipes que lançavam recursos de IA não tinham uma maneira estruturada de saber se os resultados estavam melhorando ou piorando. Elas estavam apenas fazendo uma verificação de vibrações. Lendo os resultados manualmente. Adivinhando. > É assim que o BrainTrust começou. E agora a Vercel, Replit, Ramp, Zapier, Notion e Airtable todas usam isso. O número que reformula isso: as empresas cujos produtos de IA realmente funcionam estão realizando 12.8 experimentos de avaliação por dia. Pense nessa cadência. A maioria das equipes de IA com quem converso não está realizando 12.8 por mês. A estrutura é mais simples do que as pessoas esperam. Cada avaliação é três coisas: um conjunto de entradas que seu produto manipula, uma tarefa que gera saídas e uma função de pontuação que produz um número entre 0 e 1. Neste episódio, construímos uma do zero na câmera. A pontuação foi de 0 a 0.75 em menos de 20 minutos. As avaliações estão se tornando o novo PRD. Os PMs que constroem a infraestrutura de avaliação agora vão aumentar a qualidade do produto de uma maneira que os PMs que continuam fazendo verificações de vibrações simplesmente não conseguem igualar. A lacuna já está se abrindo.