Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Profesor asistent la UIUC CS. Fost în laboratorul Stanford DAWN și Berkeley Sky Lab.
SWE-bench Verified este standardul de aur pentru evaluarea agenților de codare: 500 de probleme din lumea reală + teste de OpenAI. Sună rezistent la glonț? Aproape.
Arătăm că trecerea testelor sale unitare != se potrivește cu adevărul de bază. În lucrarea noastră ACL, am corectat evaluările cu erori: 24% dintre agenți au urcat sau au coborât în clasament!
1/7

24,85K
Voi prezenta la sesiunea de postere 2 la SIGMOD (miercuri 16:00 în Potsdam II). Vino să-mi spui bună!

Daniel Kang24 iun. 2025
Approximate query processing (AQP) can accelerate long-running analytical queries by orders of magnitude. But why is AQP still rare in production?
To address it, we develop PilotDB, an online AQP middle that makes 0 changes to DBMSs, delivers results with a priori error guarantees, and achieves up to 126x speedup.
1/8
628
Procesarea aproximativă a interogărilor (AQP) poate accelera interogările analitice de lungă durată cu ordine de mărime. Dar de ce AQP este încă rar în producție?
Pentru a rezolva problema, dezvoltăm PilotDB, un mijloc AQP online care face 0 modificări la DBMS, oferă rezultate cu garanții de eroare a priori și atinge o accelerare de până la 126x.
1/8
1,5K
@ZhanQiusi1 vom prezenta munca noastră la sesiunea de postere de miercuri de la ora 11 și la atelierul TrustNLP de sâmbătă! Salută-l dacă o vezi

Daniel Kang13 mar. 2025
Agenții AI sunt din ce în ce mai populari (de exemplu, operatorul OpenAI), dar pot fi atacați pentru a dăuna utilizatorilor!
Arătăm că, chiar și cu apărare, agenții AI pot fi compromiși prin injecții indirecte prin "atacuri adaptive" în lucrarea noastră NAACL 2025
🧵 și link-urile de mai jos

101
Inginerii de date petrec peste 60% din timp pe conductele de date. Pot ajuta agenții AI?
Vă prezentăm ELT-Bench, primul benchmark care evaluează agenții AI în construirea de conducte ELT end-to-end. Agenții actuali SOTA obțin o rată de succes de doar 3,9% - mai este un drum uriaș de parcurs!
1/7

3,99K
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante