Ein Unternehmen im Wert von 800 Millionen Dollar existiert, weil die Evaluierungen so fehlerhaft waren, dass der Gründer dasselbe interne Tool zweimal, in zwei verschiedenen Unternehmen, bauen musste, bevor jemand dafür bezahlen würde. Zuerst in seinem eigenen Startup. Dann erneut, als er das AI-Team bei Figma leitete. Das gleiche Problem beide Male: Teams, die AI-Funktionen auslieferten, hatten keine strukturierte Möglichkeit zu wissen, ob die Ergebnisse besser oder schlechter wurden. Sie haben es mit einem Vibe-Check versucht. Manuell Ausgaben gelesen. Geraten. > So begann BrainTrust. Und jetzt nutzen es Vercel, Replit, Ramp, Zapier, Notion und Airtable. Die Zahl, die das neu interpretiert: Die Unternehmen, deren AI-Produkte tatsächlich funktionieren, führen 12,8 Evaluierungsexperimente pro Tag durch. Denk über diesen Rhythmus nach. Die meisten AI-Teams, mit denen ich spreche, führen nicht einmal 12,8 pro Monat durch. Der Rahmen ist einfacher, als die Leute erwarten. Jede Evaluierung besteht aus drei Dingen: einer Reihe von Eingaben, die dein Produkt verarbeitet, einer Aufgabe, die Ausgaben generiert, und einer Bewertungsfunktion, die eine Zahl zwischen 0 und 1 produziert. In dieser Episode haben wir eine von Grund auf neu vor der Kamera erstellt. Der Score stieg in weniger als 20 Minuten von 0 auf 0,75. Evaluierungen werden das neue PRD. Die PMs, die jetzt Evaluierungsinfrastruktur aufbauen, werden die Produktqualität auf eine Weise steigern, die PMs, die weiterhin Vibe-Checks durchführen, einfach nicht erreichen können. Die Lücke öffnet sich bereits.