DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Diferența dintre demo-ware-ul AI și produsele AI care chiar funcționează nu este modelul. Contează dacă echipa ta are disciplină de evaluare. Majoritatea funcțiilor AI se livrează pe vibe check-uri. Cineva scrie un prompt, rezultatul pare rezonabil, apoi merge în producție. Trei săptămâni mai târziu, cazurile limită încep să se acumuleze și nimeni nu are o metodă sistematică de a măsura ce s-a rupt sau de ce. Echipele care avansează tratează evaluările așa cum cele mai bune echipe de produs au tratat experimentele acum cinci ani. Nu ca un pas QA la final. Ca bucla principală de luare a deciziilor. Fiecare schimbare de prompt, fiecare schimbare de model, fiecare editare de prompt de sistem primește un scor între 0 și 1 înainte să fie livrat. Ankur Goyal a construit BrainTrust în jurul acestei teze, când majoritatea oamenilor erau sceptici că evaluările ar conta. Acest scepticism a îmbătrânit prost. BrainTrust alimentează acum infrastructura de evaluare pentru Vercel, Replit, Ramp, Zapier, Notion și Airtable. Evaluare de 800 milioane de dolari. Numărul care mi-a rămas în minte: au construit o evaluare de la zero pe cameră și au dus scorul de la 0 la 0,75 în mai puțin de 20 de minute. Asta e partea pe care majoritatea echipelor o rata. Evaluările nu sunt scumpe de construit. Sunt scumpe să le sări. Abilitatea de PM care apare din asta este designul evaluării. Să știi ce intrări să testezi, cum arată "bun" ca număr și cum să itere asupra funcției de scor. Este aceeași schimbare de abilități care a avut loc când "bazat pe date" a încetat să mai fie un cuvânt la modă și a devenit un filtru de angajare. Dacă lansezi funcții AI și procesul tău de calitate este "mi se pare corect", construiești demo-ware.

Limită superioară

Clasament

Favorite