Luka między oprogramowaniem demonstracyjnym AI a produktami AI, które naprawdę działają, nie dotyczy modelu. Chodzi o to, czy twój zespół ma dyscyplinę oceny. Większość funkcji AI trafia do produkcji na podstawie subiektywnych ocen. Ktoś pisze zapytanie, wynik wygląda rozsądnie, trafia do produkcji. Trzy tygodnie później zaczynają się kumulować przypadki brzegowe i nikt nie ma systematycznego sposobu, aby zmierzyć, co się zepsuło lub dlaczego. Zespoły, które wyprzedzają innych, traktują oceny tak, jak najlepsze zespoły produktowe traktowały eksperymenty pięć lat temu. Nie jako krok QA na końcu. Jako rdzeń procesu podejmowania decyzji. Każda zmiana zapytania, każda zamiana modelu, każda edycja zapytania systemowego otrzymuje ocenę między 0 a 1 przed wdrożeniem. Ankur Goyal zbudował BrainTrust wokół tej tezy, gdy większość ludzi była sceptyczna, że oceny będą miały jakiekolwiek znaczenie. To sceptycyzm źle się zestarzał. BrainTrust teraz zasila infrastrukturę oceny dla Vercel, Replit, Ramp, Zapier, Notion i Airtable. Wycena 800 milionów dolarów. Liczba, która utkwiła mi w pamięci: zbudowali ocenę od zera na kamerze i podnieśli wynik z 0 do 0,75 w mniej niż 20 minut. To jest część, którą większość zespołów pomija. Oceny nie są drogie w budowie. Są drogie do pominięcia. Umiejętność PM, która się z tego wyłania, to projektowanie ocen. Wiedza, jakie dane wejściowe testować, jak wygląda "dobry" wynik w liczbach i jak iterować nad funkcją oceny. To ta sama zmiana umiejętności, która miała miejsce, gdy "oparty na danych" przestał być modnym hasłem i stał się kryterium zatrudnienia. Jeśli wdrażasz funkcje AI, a twój proces jakościowy to "czy to wygląda dobrze dla mnie", budujesz oprogramowanie demonstracyjne.