Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Assistent-professor aan UIUC CS. Voorheen in het Stanford DAWN-lab en het Berkeley Sky Lab.
SWE-bench Verified is de gouden standaard voor het evalueren van coderingsagenten: 500 echte wereldproblemen + tests van OpenAI. Klinkt waterdicht? Niet helemaal.
We tonen aan dat het slagen voor de eenheidstests != overeenkomen met de grondwaarheid. In ons ACL-papier hebben we foutieve evaluaties gecorrigeerd: 24% van de agenten steeg of daalde op de ranglijst!
1/7

24,88K
Versterkend leren stelt LLM's in staat om mensen te verslaan in programmeer- en wiskundewedstrijden en heeft recente vooruitgangen aangedreven (OpenAI's o-serie, Anthropic's Claude 4)
Zal RL brede generalisatie mogelijk maken op dezelfde manier als pretraining? Niet met de huidige technieken
🧵 1/7
2,6K
Ik zal presenteren tijdens poster sessie 2 op SIGMOD (woensdag 16:00 in Potsdam II). Kom hallo zeggen!

Daniel Kang24 jun 2025
Benaderende queryverwerking (AQP) kan langdurige analytische queries met een factor versnellen. Maar waarom is AQP nog steeds zeldzaam in productie?
Om dit aan te pakken, ontwikkelen we PilotDB, een online AQP-middel dat 0 wijzigingen aan DBMS's aanbrengt, resultaten levert met a priori foutgaranties en tot 126x versnelling bereikt.
1/8
665
Benaderende queryverwerking (AQP) kan langdurige analytische queries met een factor versnellen. Maar waarom is AQP nog steeds zeldzaam in productie?
Om dit aan te pakken, ontwikkelen we PilotDB, een online AQP-middel dat 0 wijzigingen aan DBMS's aanbrengt, resultaten levert met a priori foutgaranties en tot 126x versnelling bereikt.
1/8
1,53K
@ZhanQiusi1 zullen ons werk presenteren tijdens de postersessie op woensdag 11 uur en de TrustNLP-workshop op zaterdag (spotlight talk)! Zeg hallo als je haar ziet

Daniel Kang13 mrt 2025
AI-agenten worden steeds populairder (bijv. de operator van OpenAI), maar kunnen worden aangevallen om gebruikers schade te berokkenen!
We laten zien dat AI-agenten, zelfs met verdediging, nog steeds kunnen worden gecompromitteerd via indirecte promptinjecties via "adaptieve aanvallen" in ons NAACL 2025-bevindingendocument
🧵 en links hieronder

119
Data engineers besteden meer dan 60% van hun tijd aan datapijplijnen. Kunnen AI-agenten helpen?
Introductie van ELT-Bench, de eerste benchmark die AI-agents evalueert voor het bouwen van end-to-end ELT-pijplijnen. De huidige SOTA-agents behalen slechts een slagingspercentage van 3,9% - er is nog een lange weg te gaan!
1/7

4,01K
Daniel Kang heeft opnieuw gepost
Tegenwoordig kan AI tonnen code genereren, maar hoe weten we of het goed is?
Daarom hebben we Sculptor gebouwd: de eerste coderingsagentomgeving.
Sculptor helpt je problemen op te sporen, tests te schrijven en je code te verbeteren, terwijl je in je favoriete editor werkt.
99,42K
AI-agenten worden steeds populairder (bijv. de operator van OpenAI), maar kunnen worden aangevallen om gebruikers schade te berokkenen!
We laten zien dat AI-agenten, zelfs met verdediging, nog steeds kunnen worden gecompromitteerd via indirecte promptinjecties via "adaptieve aanvallen" in ons NAACL 2025-bevindingendocument
🧵 en links hieronder

4,17K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste