Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die Kluft zwischen KI-Demo-Software und KI-Produkten, die tatsächlich funktionieren, liegt nicht im Modell. Es hängt davon ab, ob Ihr Team eine Evaluationsdisziplin hat.
Die meisten KI-Funktionen werden nach Bauchgefühl veröffentlicht. Jemand schreibt einen Prompt, die Ausgabe sieht vernünftig aus, und es geht in die Produktion. Drei Wochen später beginnen die Randfälle sich zu häufen, und niemand hat eine systematische Möglichkeit zu messen, was kaputt gegangen ist oder warum.
Die Teams, die vorausziehen, behandeln Evaluierungen so, wie die besten Produktteams vor fünf Jahren Experimente behandelt haben. Nicht als QA-Schritt am Ende. Als den zentralen Entscheidungsprozess. Jede Änderung des Prompts, jeder Modellwechsel, jede Bearbeitung des Systemprompts erhält eine Bewertung zwischen 0 und 1, bevor sie veröffentlicht wird.
Ankur Goyal hat BrainTrust um diese These herum aufgebaut, als die meisten Leute skeptisch waren, ob Evaluierungen überhaupt von Bedeutung sein würden. Diese Skepsis hat sich als falsch erwiesen. BrainTrust unterstützt jetzt die Evaluierungsinfrastruktur für Vercel, Replit, Ramp, Zapier, Notion und Airtable. 800 Millionen Dollar Bewertung.
Die Zahl, die mir im Gedächtnis geblieben ist: Sie haben eine Evaluierung von Grund auf vor der Kamera aufgebaut und die Bewertung in weniger als 20 Minuten von 0 auf 0,75 erhöht. Das ist der Teil, den die meisten Teams übersehen. Evaluierungen sind nicht teuer zu erstellen. Sie sind teuer zu überspringen.
Die PM-Fähigkeit, die sich daraus entwickelt, ist das Design von Evaluierungen. Zu wissen, welche Eingaben getestet werden sollen, wie "gut" als Zahl aussieht und wie man die Bewertungsfunktion iteriert. Es ist derselbe Fähigkeitswechsel, der stattfand, als "datengetrieben" aufhörte, ein Schlagwort zu sein, und zu einem Einstellungskriterium wurde.
Wenn Sie KI-Funktionen veröffentlichen und Ihr Qualitätsprozess "sieht das für mich richtig aus" ist, bauen Sie Demo-Software.
Top
Ranking
Favoriten
