Ero tekoälydemo-ohjelmistojen ja tekoälytuotteiden välillä, jotka oikeasti toimivat, ei ole malli. Kysymys on siitä, onko joukkueellasi arviointikurinalaisuutta. Useimmat tekoälyominaisuudet tulevat tunnelmatarkistuksiin. Joku kirjoittaa kehotteen, tulos näyttää kohtuulliselta, se siirtyy tuotantoon. Kolmen viikon kuluttua reunatapaukset alkavat kasaantua, eikä kenelläkään ole systemaattista tapaa mitata, mikä meni rikki tai miksi. Edellä olevat tiimit suhtautuvat arviointeihin samalla tavalla kuin parhaat tuotetiimit suhtautuivat kokeiluihin viisi vuotta sitten. Ei QA-vaiheena lopussa. Keskeisenä päätöksentekokierteenä. Jokainen kehotteen muutos, jokainen mallinvaihto, jokainen järjestelmäkehotteen muokkaus saa pisteet 0–1 ennen julkaisua. Ankur Goyal rakensi BrainTrustin tämän teesin ympärille, kun useimmat epäilivät, että arvioinnit olisivat edes merkityksellisiä. Tuo skeptisyys vanheni huonosti. BrainTrust ylläpitää nyt arviointiinfrastruktuuria Vercelille, Replitille, Rampille, Zapierille, Notionille ja Airtablelle. 800 miljoonan dollarin arvostus. Luku, joka jäi mieleeni: he rakensivat arvion nollasta kameran edessä ja nostivat pisteet 0:sta 0,75:een alle 20 minuutissa. Se on se osa, jonka useimmat joukkueet unohtavat. Arvioinnit eivät ole kalliita rakentaa. Niiden ohittaminen on kallista. PM-taito, joka tästä kehittyy, on arviointisuunnittelu. Tietää, mitä syötteitä testataan, miltä "hyvä" näyttää numerona ja miten pisteytysfunktiota iteroidaan. Se on sama taitojen muutos, joka tapahtui, kun "datalähtöinen" lakkasi olemasta muotisana ja muuttui rekrytointisuodattimeksi. Jos toimitat tekoälyominaisuuksia ja laatuprosessisi on "näyttääkö tämä minusta oikealta", rakennat demo-ohjelmistoa.