Firma o wartości 800 milionów dolarów istnieje, ponieważ oceny były tak zepsute, że założyciel musiał zbudować to samo narzędzie wewnętrzne dwa razy, w dwóch różnych firmach, zanim ktokolwiek za to zapłacił. Najpierw w swoim własnym startupie. Potem ponownie prowadząc zespół AI w Figma. Ten sam problem za każdym razem: zespoły wprowadzające funkcje AI nie miały uporządkowanego sposobu, aby wiedzieć, czy wyniki się poprawiają, czy pogarszają. Sprawdzali to na wyczucie. Ręcznie czytali wyniki. Zgadywali. > Tak zaczęła się BrainTrust. A teraz Vercel, Replit, Ramp, Zapier, Notion i Airtable wszyscy z tego korzystają. Liczba, która to przekształca: firmy, których produkty AI naprawdę działają, przeprowadzają 12,8 eksperymentów oceniających dziennie. Pomyśl o tym tempie. Większość zespołów AI, z którymi rozmawiam, nie przeprowadza 12,8 miesięcznie. Ramy są prostsze, niż się wydaje. Każda ocena to trzy rzeczy: zestaw danych wejściowych, które obsługuje twój produkt, zadanie, które generuje wyniki, oraz funkcja oceny, która produkuje liczbę między 0 a 1. W tym odcinku zbudowaliśmy jedną od podstaw na kamerze. Wynik wzrósł z 0 do 0,75 w mniej niż 20 minut. Oceny stają się nowym PRD. PM-owie, którzy budują infrastrukturę oceny teraz, będą kumulować jakość produktu w sposób, w jaki PM-owie, którzy wciąż sprawdzają na wyczucie, po prostu nie mogą dorównać. Już otwiera się luka.