Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Adam Wolff
Claude Code @AnthropicAI 🤖
Ivrig kock, hängiven snömänniska, yogaentusiast
Vi accelererar fortfarande. Underagenter är nu en förstklassig funktion i Claude Code. Jag kan inte vänta med att se vad du bygger med dem.
Bra jobbat med den här @sidbidasaria

Sid25 juli 05:28
Claude Code får en helt ny funktion: anpassade underagenter.
Skriv "/agents" för att komma igång.
32,55K
Claude Code, som nu är inbyggd i Windows.
Funktioner som denna är inte flashiga, men de gör Claude Code *så* kraftfull. Vi vill att den ska fungera överallt där du gör.

Alex Albert15 juli 03:07
Vi har en annan stor uppdatering för Claude Code idag: den är nu tillgänglig för Windows.

13,06K
"Konkurrens känns som en mäktig kraft, men samarbete är den enda kraft som är starkare."
❤️ @tomocchino

Ryan Vogel13 juli 01:50
check out part one of our newest episode with @tomocchino from @vercel
(thanks again to vercel for letting us film at HQ)

10,23K
Claude Code är så anpassningsbar, men funktionerna är svåra att upptäcka. Många människor sover på kraften i anpassade kommandon. Nu kan de till och med bädda in bash-utdata!
Ta en ny titt om du inte redan använder dessa funktioner.

Alex Albert2 juli 00:19
Som en påminnelse kan du med snedstreckskommandon lagra anpassade prompter som Markdown-filer och anropa dem med /your-command.
Med den här uppdateringen kan du nu:
- Kör bash-kommandon från snedstreckskommandon
- @ omnämn filer för sammanhang
- Möjliggör utökat tänkande med nyckelord i kommandon

10,02K
Evals idag är som tester var för ett decennium sedan. Självklart viktigt, men också oklart exakt hur och hur mycket man ska investera.
Det här är ett bra råd, men det viktigaste är att prova. Om din produkt innehåller AI och du inte har evals, bygger du ett slott av sand.

shyamal20 maj 2025
Att komma igång med EVALS kräver inte för mycket. Mönstret som vi har sett fungera för små team ser mycket ut som testdriven utveckling tillämpad på AI-teknik:
1/ Förankra evals i användarberättelser, inte i abstrakta riktmärken: Sätt dig ner med din produkt-/designmotpart och lista ut de konkreta saker som din modell behöver göra för användarna. "svara korrekt på frågor om försäkringsanspråk", "generera SQL-frågor från naturligt språk". För var och en, skriv 10–20 representativa indata och önskade utdata/beteenden. Det här är din första Eval-fil.
2/ Automatisera från dag ett, även om det är skört. Motstå frestelsen att "bara titta på det". Tja, OK, vibbar skalar inte för länge. Omslut dina evals i kod. Du kan skriva en enkel pytest som loopar över dina exempel, anropar modellen och kontrollerar att vissa delsträngar visas. Det är grovt, men det är en början.
3/ Använd modellen för att starta hårdare utvärderingsdata. Det är dyrt att manuellt skriva hundratals gränsfall. Du kan använda resonemangsmodeller (O3) för att generera syntetiska varianter ("Ge mig 50 skadefrågor som rör brandskador") och sedan handfiltrera. Detta påskyndar täckningen utan att offra relevansen.
4/ Jaga inte topplistor; Iterera på det som misslyckas. När något misslyckas i produktionen, åtgärda inte bara prompten – lägg till det misslyckade fallet i din eVal-uppsättning. Med tiden kommer din svit att växa för att återspegla dina verkliga misslyckanden. Dela regelbundet upp dina evals (efter indatalängd, efter språk osv.) för att se om du går tillbaka till vissa segment.
5/ Utveckla dina mätvärden i takt med att din produkt mognar. När du skalar vill du ha mer nyanserad bedömning (semantisk likhet, mänskliga klassificeringar, spårning av kostnad/svarstid). Bygg krokar i din Eval-sele för att logga dessa och trenda dem över tid. Instrumentera användargränssnittet för att samla in implicit feedback (klickade användaren på "tummen upp"?) och mata tillbaka det till dina offlineutvärderingar.
6/ Gör evals synliga. Placera en enkel instrumentpanel framför teamet och intressenterna som visar Eval-godkännandehastigheter, kostnad, latens. Använd den i stand-ups. Detta skapar ansvarstagande och hjälper icke-ML-personer att delta i avvägningsdiskussionerna.
Slutligen, behandla Evals som en grundläggande teknisk artefakt. Tilldela ägarskap, granska dem i kodgranskning, fira när du lägger till ett nytt knepigt ärende. Disciplinen kommer att ge sammansatt utdelning när du skalar.
1,18K
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda