Når du bygger AI-agenter, ikke behandle prompts som konfigurasjonsstrenger. Behandle dem som kjørbar forretningslogikk. For det er det de egentlig er. @arshdilbagi sin blogg og denne Stanford CS 224G-forelesningen presenterer en av de klareste mentale modellene jeg har sett for LLM-evaluering. Slutt å behandle evalueringer som enhetstester. Det fungerer for deterministisk programvare. For LLM-produkter skaper det falsk tillit fordi bruken i den virkelige verden endrer seg over tid. Eksempel: en forsikringsoppgave bestod 20 evalueringssaker. Teamet sendte det. I produksjonen dukket en ny klasse forespørsler opp og mislyktes stille. Ingen krasj, ingen varsling, bare feil svar i stor skala. Løsningen er ikke «skrive flere evalueringssaker», som mange team gjør. Det bygger evalueringer som en levende tilbakemeldingssløyfe. Start med et lite sett, send ut, se hva som går i stykker i produksjonen, legg til de feilene igjen, og kjør på nytt på hver prompt eller modellendring. Hvilken evalueringsfeil tok teamet ditt på senga? Blogg: Stanford CS 224G-forelesning: