Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Tidigare anställd vid Stanford DAWN lab och Berkeley Sky Lab.
SWE-bench Verified är guldstandarden för att utvärdera kodningsagenter: 500 verkliga problem + tester av OpenAI. Låter det skottsäkert? Närapå.
Vi visar att klara dess enhetstester != matchande grundsanning. I vårt ACL-dokument har vi fixat buggy-evals: 24 % av agenterna flyttades upp eller ner på topplistan!
1/7

24,86K
Förstärkningsinlärning gör det möjligt för LLM:er att slå människor i programmerings-/matematiktävlingar och har drivit de senaste framstegen (OpenAI:s o-serie, Anthropics Claude 4)
Kommer RL att möjliggöra bred generalisering på samma sätt som förträning gör? Inte med nuvarande teknik
🧵 Plats 1/7
2,58K
Jag kommer att presentera vid poster session 2 på SIGMOD (onsdag 16:00 i Potsdam II). Kom och säg hej!

Daniel Kang24 juni 2025
Approximate query processing (AQP) can accelerate long-running analytical queries by orders of magnitude. But why is AQP still rare in production?
To address it, we develop PilotDB, an online AQP middle that makes 0 changes to DBMSs, delivers results with a priori error guarantees, and achieves up to 126x speedup.
1/8
629
Ungefärlig frågebearbetning (AQP) kan påskynda långvariga analysfrågor i storleksordningar. Men varför är AQP fortfarande sällsynt i produktionen?
För att ta itu med det utvecklar vi PilotDB, ett online AQP-mellancenter som gör 0 ändringar i DBMS:er, ger resultat med a priori felgarantier och uppnår upp till 126x hastighet.
1/8
1,5K
@ZhanQiusi1 kommer att presentera vårt arbete på onsdag kl. 11 affischsession och lördagens TrustNLP workshop (spotlight talk)! Säg hej om du ser henne

Daniel Kang13 mars 2025
AI-agenter blir allt populärare (t.ex. OpenAI:s operatör) men kan attackeras för att skada användare!
Vi visar att även med försvar kan AI-agenter fortfarande komprometteras via indirekta snabba injektioner via "adaptiva attacker" i vårt NAACL 2025-resultatdokument
🧵 och länkar nedan

102
Datatekniker ägnar över 60 % av sin tid åt datapipelines. Kan AI-agenter hjälpa till?
Vi presenterar ELT-Bench, det första riktmärket som utvärderar AI-agenter för att skapa ELT-pipelines från slutpunkt till slutpunkt. Nuvarande SOTA-agenter uppnår endast en framgångsfrekvens på 3,9 % - det finns en enorm väg att gå!
1/7

3,99K
Daniel Kang delade inlägget
I dag kan AI generera massor av kod – men hur vet vi om den är bra?
Det är därför vi skapade Sculptor: den första miljön för kodningsagenter.
Sculptor hjälper dig att fånga upp problem, skriva prov och förbättra din kod – allt medan du arbetar i din favoritredigerare.
99,42K
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda