A diferença entre software de demonstração de IA e produtos de IA que realmente funcionam não é o modelo. É se a sua equipe tem disciplina de avaliação. A maioria das funcionalidades de IA é lançada com base em impressões. Alguém escreve um prompt, a saída parece razoável, vai para produção. Três semanas depois, os casos extremos começam a se acumular e ninguém tem uma maneira sistemática de medir o que quebrou ou por quê. As equipes que estão se destacando estão tratando as avaliações da mesma forma que as melhores equipes de produto tratavam a experimentação há cinco anos. Não como um passo de QA no final. Como o núcleo do ciclo de tomada de decisão. Cada mudança de prompt, cada troca de modelo, cada edição de prompt do sistema recebe uma pontuação entre 0 e 1 antes de ser lançada. Ankur Goyal construiu a BrainTrust em torno dessa tese quando a maioria das pessoas era cética quanto à importância das avaliações. Essa ceticismo envelheceu mal. A BrainTrust agora alimenta a infraestrutura de avaliação para Vercel, Replit, Ramp, Zapier, Notion e Airtable. Avaliação de $800M. O número que ficou comigo: eles construíram uma avaliação do zero em câmera e levaram a pontuação de 0 a 0.75 em menos de 20 minutos. Essa é a parte que a maioria das equipes perde. Avaliações não são caras de construir. Elas são caras de pular. A habilidade de PM que está emergindo disso é o design de avaliação. Saber quais entradas testar, como é um "bom" resultado em forma de número e como iterar na função de pontuação. É a mesma mudança de habilidade que aconteceu quando "orientado por dados" deixou de ser uma palavra da moda e se tornou um filtro de contratação. Se você está lançando funcionalidades de IA e seu processo de qualidade é "isso parece certo para mim", você está construindo software de demonstração.