DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Il divario tra il software dimostrativo di AI e i prodotti di AI che funzionano realmente non è il modello. È se il tuo team ha disciplina di valutazione. La maggior parte delle funzionalità di AI viene lanciata basandosi su controlli superficiali. Qualcuno scrive un prompt, l'output sembra ragionevole, va in produzione. Tre settimane dopo i casi limite iniziano a moltiplicarsi e nessuno ha un modo sistematico per misurare cosa è andato storto o perché. I team che stanno avanzando trattano le valutazioni come i migliori team di prodotto trattavano la sperimentazione cinque anni fa. Non come un passo di QA alla fine. Ma come il ciclo decisionale centrale. Ogni modifica del prompt, ogni cambio di modello, ogni modifica del prompt di sistema riceve un punteggio tra 0 e 1 prima di essere lanciato. Ankur Goyal ha costruito BrainTrust attorno a questa tesi quando la maggior parte delle persone era scettica sul fatto che le valutazioni avrebbero avuto importanza. Quello scetticismo è invecchiato male. BrainTrust ora alimenta l'infrastruttura di valutazione per Vercel, Replit, Ramp, Zapier, Notion e Airtable. Valutazione di 800 milioni di dollari. Il numero che mi è rimasto impresso: hanno costruito una valutazione da zero in diretta e hanno portato il punteggio da 0 a 0,75 in meno di 20 minuti. Questa è la parte che la maggior parte dei team ignora. Le valutazioni non sono costose da costruire. Sono costose da saltare. La competenza del PM che sta emergendo da questo è il design della valutazione. Sapere quali input testare, come appare un "buono" come numero e come iterare sulla funzione di punteggio. È lo stesso spostamento di competenze che è avvenuto quando "data-driven" ha smesso di essere un termine alla moda ed è diventato un filtro di assunzione. Se stai lanciando funzionalità di AI e il tuo processo di qualità è "sembra giusto per me", stai costruendo software dimostrativo.

Principali

Ranking

Preferiti