AIデモウェアと実際に動作するAI製品のギャップはモデルではありません。チームに評価規律があるかどうかが重要です。 ほとんどのAI機能はバイブチェックで配信されます。誰かがプロンプトを書き、出力は妥当に見え、それが本番環境に送られます。3週間後には例外的なケースが積み重なり始め、何が壊れたのか、なぜ壊れたのかを体系的に測る方法が誰も持っていません。 リードしているチームは、5年前の最高のプロダクトチームが実験を扱うのと同じように評価を扱っています。最後のQAステップとしてではありません。意思決定の核心として。プロンプトの変更、モデルの入れ替え、システムのプロンプト編集のたびに、出荷前に0から1のスコアがつきます。 アンクル・ゴヤルは、多くの人が評価が重要になるとは懐疑的だった中で、この仮説を中心にブレイントラストを築きました。その懐疑心は時代遅れに感じられました。BrainTrustは現在、Vercel、Replit、Ramp、Zapier、Notion、Airtableの評価インフラを支えています。8億ドルの評価額だ。 私の心に残った数字は、カメラの前でゼロから評価を組み立て、20分以内にスコアを0から0.75に上げたことです。そこは多くのチームが見落としがちな部分です。評価は高くありません。スキップすると高額です。 そこから生まれつつあるPMスキルは評価デザインです。どの入力をテストすべきか、数値として「良い」とは何か、スコア関数の反復調整方法を知っています。これは「データ駆動型」が流行語ではなく採用フィルターになったときに起きたスキルの変化と同じです。 AI機能をリリースしていて品質プロセスが「これ、自分には合っているか」というものであれば、それはデモウェアを作っていることになります。