DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Adam Wolff

Claude Code @AnthropicAI 🤖 Bucătar pasionat, om dedicat zăpezii, pasionat de yoga

Evaluările de astăzi sunt ca testele de acum un deceniu. Evident important, dar și neclar exact cum și cât să investească. Acesta este un sfat grozav, dar cel mai important lucru este să încerci. Dacă produsul tău încorporează AI și nu ai evaluări, construiești un castel din nisip.

Începerea cu evaluările nu necesită prea multe. modelul pe care l-am văzut funcționând pentru echipele mici seamănă foarte mult cu dezvoltarea bazată pe teste aplicată ingineriei AI: 1/ Ancorați evaluările în poveștile utilizatorilor, nu în benchmark-uri abstracte: stați de vorbă cu omologul dvs. produs/design și enumerați lucrurile concrete pe care modelul dvs. trebuie să le facă pentru utilizatori. "răspundeți cu precizie la întrebările privind cererile de despăgubire", "generați interogări SQL din limbaj natural". Pentru fiecare, scrieți 10-20 de intrări reprezentative și ieșirile/comportamentele dorite. Acesta este primul fișier de evaluare. 2/ Automatizați din prima zi, chiar dacă este fragil. rezistă tentației de a "doar privi". Ei bine, OK, vibrațiile nu se scalează prea mult timp. Înfășurați-vă evaluările în cod. Puteți scrie un pytest simplu care trece în buclă peste exemplele dvs., apelează modelul și afirmă că apar anumite subșiruri. Este crud, dar este un început. 3/ Utilizați modelul pentru a porni date de evaluare mai dificile. Scrierea manuală a sute de cazuri limită este costisitoare. Puteți utiliza modele de raționament (O3) pentru a genera variații sintetice ("Dați-mi 50 de întrebări de revendicare care implică daune provocate de incendiu") și apoi filtrați manual. Acest lucru accelerează acoperirea fără a sacrifica relevanța. 4/ Nu urmăriți clasamentele; iterați pe ceea ce eșuează. Când ceva eșuează în producție, nu remediați doar solicitarea - adăugați cazul eșuat la setul de evaluare. În timp, suita ta va crește pentru a reflecta modurile tale reale de eșec. Împărțiți periodic evaluările (după lungimea de intrare, după setările regionale etc.) pentru a vedea dacă regresați pe anumite segmente. 5/ Dezvoltați-vă valorile pe măsură ce produsul se maturizează. Pe măsură ce scalați, veți dori un scor mai nuanțat (similitudine semantică, evaluări umane, urmărirea costului/latenței). Construiți cârlige în hamul de evaluare pentru a le înregistra și a le tendința în timp. instrumentați-vă interfața de utilizare pentru a colecta feedback implicit (utilizatorul a făcut clic pe "degetul mare în sus"?) și alimentați-l înapoi în evaluările offline. 6/ Faceți vizibile evaluările. Puneți un tablou de bord simplu în fața echipei și a părților interesate care să arate ratele de promovare, costul, latența. Folosește-l în stand-up-uri. acest lucru creează responsabilitate și îi ajută pe cei care nu sunt ML să participe la discuțiile de compromis. În cele din urmă, tratați evaluările ca pe un artefact ingineresc de bază. Atribuiți proprietatea, revizuiți-le în revizuirea codului, sărbătoriți când adăugați un nou caz dificil. disciplina va plăti dividende compuse pe măsură ce vă extindeți.

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante