Une entreprise de 800 millions de dollars existe parce que les évaluations étaient si défaillantes que le fondateur a dû construire le même outil interne deux fois, dans deux entreprises différentes, avant que quelqu'un ne veuille bien le payer. D'abord dans sa propre startup. Puis à nouveau en dirigeant l'équipe AI chez Figma. Même problème à chaque fois : les équipes qui livraient des fonctionnalités AI n'avaient aucun moyen structuré de savoir si les résultats s'amélioraient ou se dégradaient. Ils faisaient des vérifications d'ambiance. Lisant manuellement les résultats. Devinaient. > C'est ainsi que BrainTrust a commencé. Et maintenant Vercel, Replit, Ramp, Zapier, Notion et Airtable l'utilisent tous. Le chiffre qui reformule cela : les entreprises dont les produits AI fonctionnent réellement réalisent 12,8 expériences d'évaluation par jour. Pensez à ce rythme. La plupart des équipes AI avec lesquelles je parle ne réalisent pas 12,8 par mois. Le cadre est plus simple que ce que les gens s'attendent. Chaque évaluation est trois choses : un ensemble d'entrées que votre produit gère, une tâche qui génère des résultats, et une fonction de notation qui produit un nombre entre 0 et 1. Dans cet épisode, nous en avons construit un de zéro devant la caméra. Le score est passé de 0 à 0,75 en moins de 20 minutes. Les évaluations deviennent le nouveau PRD. Les PM qui construisent l'infrastructure d'évaluation maintenant vont multiplier la qualité du produit d'une manière que les PM qui continuent à faire des vérifications d'ambiance ne peuvent tout simplement pas égaler. L'écart est déjà en train de s'ouvrir.