Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Når du bygger AI-agenter, ikke behandle prompts som konfigurasjonsstrenger.
Behandle dem som kjørbar forretningslogikk. For det er det de egentlig er.
@arshdilbagi sin blogg og denne Stanford CS 224G-forelesningen presenterer en av de klareste mentale modellene jeg har sett for LLM-evaluering.
Slutt å behandle evalueringer som enhetstester.
Det fungerer for deterministisk programvare.
For LLM-produkter skaper det falsk tillit fordi bruken i den virkelige verden endrer seg over tid.
Eksempel: en forsikringsoppgave bestod 20 evalueringssaker. Teamet sendte det. I produksjonen dukket en ny klasse forespørsler opp og mislyktes stille. Ingen krasj, ingen varsling, bare feil svar i stor skala.
Løsningen er ikke «skrive flere evalueringssaker», som mange team gjør.
Det bygger evalueringer som en levende tilbakemeldingssløyfe. Start med et lite sett, send ut, se hva som går i stykker i produksjonen, legg til de feilene igjen, og kjør på nytt på hver prompt eller modellendring.
Hvilken evalueringsfeil tok teamet ditt på senga?
Blogg:
Stanford CS 224G-forelesning:

Topp
Rangering
Favoritter
