Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gapet mellom AI-demo-ware og AI-produkter som faktisk fungerer, er ikke modellen. Det handler om hvorvidt teamet ditt har evaldisiplin.
De fleste AI-funksjoner leveres på vibe-sjekker. Noen skriver en prompt, resultatet ser rimelig ut, det går i produksjon. Tre uker senere begynner kanttilfellene å hope seg opp, og ingen har en systematisk måte å måle hva som gikk i stykker eller hvorfor.
Teamene som ligger foran behandler evalueringer slik de beste produktteamene behandlet eksperimentering for fem år siden. Ikke som et QA-steg på slutten. Som kjernen i beslutningsprosessen. Hver endring av prompt, hver modellbytte, hver endring i systemprompten får en score mellom 0 og 1 før den sendes.
Ankur Goyal bygde BrainTrust rundt denne tesen da de fleste var skeptiske til at evalueringer i det hele tatt ville bety noe. Den skepsisen eldes dårlig. BrainTrust driver nå evalueringsinfrastrukturen for Vercel, Replit, Ramp, Zapier, Notion og Airtable. 800 millioner dollar.
Tallet som festet seg hos meg: de bygde en vurdering fra null på kamera og tok poengsummen fra 0 til 0,75 på under 20 minutter. Det er den delen de fleste lag overser. Evalueringer er ikke dyre å bygge. De er dyre å hoppe over.
PM-ferdigheten som vokser frem fra dette er evalueringsdesign. Å vite hvilke input man skal teste, hvordan «bra» ser ut som tall, og hvordan man iter på poengfunksjonen. Det er det samme ferdighetsskiftet som skjedde da «datadrevet» sluttet å være et moteord og ble et ansettelsesfilter.
Hvis du leverer AI-funksjoner og kvalitetsprosessen din er «ser dette riktig ut for meg», bygger du demo-ware.
Topp
Rangering
Favoritter
