Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
När du bygger AI-agenter, behandla inte prompts som konfigurationssträngar.
Behandla dem som exekverbar affärslogik. För det är vad de verkligen är.
@arshdilbagi blogg och denna Stanford CS 224G-föreläsning presenterar en av de tydligaste mentala modeller jag sett för LLM-utvärdering.
Sluta behandla utvärderingar som enhetstester.
Det fungerar för deterministisk programvara.
För LLM-produkter skapar det falsk tilltro eftersom verklig användning förändras över tid.
Exempel: en försäkringsprompt klarade 20 utvärderingsfall. Teamet skickade iväg. I produktionen dök en ny klass av förfrågningar upp och misslyckades tyst. Ingen krasch, ingen varning, bara felaktiga svar i stor skala.
Lösningen är inte "skriva fler utvärderingsfall", vilket många team gör.
Det bygger utvärderingar som en levande återkopplingsslinga. Börja med en liten uppsättning, skicka den, se vad som går sönder i produktionen, lägg till de felen igen och kör om varje prompt eller modellbyte.
Vilket utvärderingsmisslyckande överraskade ditt team?
Blogg:
Stanford CS 224G-föreläsning:

Topp
Rankning
Favoriter
