Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Adam Wolff
Claude Code @AnthropicAI 🤖
Ivrig kokk, dedikert snøperson, yogaentusiast
Claude Code, nå hjemmehørende på Windows.
Funksjoner som dette er ikke prangende, men de gjør Claude Code *så* kraftig. Vi vil at den skal kjøre overalt hvor du gjør.

Alex Albert15. juli, 03:07
Vi har nok en stor oppdatering for Claude Code i dag: den er nå tilgjengelig for Windows.

13,02K
«Mens konkurranse føles som en mektig kraft, er samarbeid den eneste kraften som er sterkere.»
@tomocchino ❤️

Ryan Vogel13. juli, 01:50
check out part one of our newest episode with @tomocchino from @vercel
(thanks again to vercel for letting us film at HQ)

10,19K
Claude Code er så tilpassbar, men funksjonene er vanskelige å oppdage. Mange mennesker sover på kraften til tilpassede kommandoer. Nå kan de til og med bygge inn bash-utgang!
Ta en ny titt hvis du ikke allerede bruker disse funksjonene.

Alex Albert2. juli, 00:19
Som en påminnelse lar skråstrekkommandoer deg lagre egendefinerte ledetekster som Markdown-filer og påkalle dem med /din-kommando.
Med denne oppdateringen kan du nå:
- Utfør bash-kommandoer fra skråstrekkommandoer
- @ omtale filer for kontekst
- Muliggjør utvidet tenkning med nøkkelord i kommandoer

9,99K
Evals i dag er som tester var for et tiår siden. Åpenbart viktig, men også uklart nøyaktig hvordan og hvor mye du skal investere.
Dette er et godt råd, men det viktigste er å prøve. Hvis produktet ditt inneholder AI og du ikke har evals, bygger du et slott laget av sand.

shyamal20. mai 2025
Å komme i gang med Evals krever ikke for mye. mønsteret som vi har sett fungere for små team, ligner mye på testdrevet utvikling brukt på AI-teknikk:
1/ Forankre evalueringer i brukerhistorier, ikke i abstrakte benchmarks: Sett deg ned med produkt-/designmotparten din og liste opp de konkrete tingene modellen din må gjøre for brukerne. "svar nøyaktig på spørsmål om forsikringskrav", "generer SQL-spørringer fra naturlig språk". For hver, skriv 10–20 representative inndata og ønskede utdata/oppførsel. Dette er din første Eval-fil.
2/ Automatiser fra dag én, selv om det er sprøtt. motstå fristelsen til å "bare øyeeple det". Vel, ok, vibber skalerer ikke for lenge. Pakk inn evalene dine i kode. Du kan skrive en enkel pytest som sløyfer over eksemplene dine, kaller modellen og hevder at visse delstrenger vises. det er rått, men det er en begynnelse.
3/ Bruk modellen til å starte opp vanskeligere evalueringsdata. Manuell skriving av hundrevis av kantsaker er dyrt. Du kan bruke resonneringsmodeller (O3) for å generere syntetiske variasjoner ("Gi meg 50 kravspørsmål som involverer brannskader") og deretter håndfiltrere. Dette øker dekningen uten at det går på bekostning av relevansen.
4/ Ikke jage topplister; Gjenta det som mislykkes. Når noe mislykkes i produksjonen, ikke bare fiks ledeteksten – legg til den mislykkede saken i evalueringssettet ditt. Over tid vil suiten din vokse til å gjenspeile dine virkelige feilmoduser. Del opp evalene dine med jevne mellomrom (etter inndatalengde, etter nasjonal innstilling osv.) for å se om du går tilbake på bestemte segmenter.
5/ Utvikle beregningene dine etter hvert som produktet modnes. Når du skalerer, vil du ha mer nyansert poengsum (semantisk likhet, menneskelige vurderinger, kostnads-/ventetidssporing). Bygg kroker i Eval-selen din for å logge disse og trende dem over tid. instrumenter brukergrensesnittet ditt for å samle inn implisitte tilbakemeldinger (klikket brukeren på "tommel opp"?) og matet det tilbake til offline-evalueringene dine.
6/ Gjør evals synlige. Sett et enkelt dashbord foran teamet og interessenter som viser eval-beståttrater, kostnader, ventetid. Bruk den i stand-ups. dette skaper ansvarlighet og hjelper ikke-ML-folk å delta i avveiningsdiskusjonene.
Til slutt, behandle Evals som en kjerneingeniørartefakt. Tildel eierskap, gjennomgå dem i kodegjennomgang, feire når du legger til en ny vanskelig sak. disiplinen vil gi sammensatt utbytte etter hvert som du skalerer.
1,14K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til