Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Asisten profesor di UIUC CS. Sebelumnya di laboratorium Stanford DAWN dan Berkeley Sky Lab.
SWE-bench Verified adalah standar emas untuk mengevaluasi agen pengkodean: 500 masalah dunia nyata + pengujian oleh OpenAI. Kedengarannya antipeluru? Hampir.
Kami menunjukkan lulus uji satuannya != kebenaran dasar yang cocok. Dalam makalah ACL kami, kami memperbaiki eval buggy: 24% agen naik atau turun papan peringkat!
1/7

24,87K
Pembelajaran penguatan memungkinkan LLM untuk mengalahkan manusia dalam kompetisi pemrograman/matematika dan telah mendorong kemajuan baru-baru ini (seri o OpenAI, Claude 4 dari Anthropic)
Akankah RL memungkinkan generalisasi luas dengan cara yang sama seperti prapelatihan? Tidak dengan teknik saat ini
🧵 1/7
2,59K
Saya akan mempresentasikan di sesi poster 2 di SIGMOD (Rabu 16:00 di Potsdam II). Ayo menyapa!

Daniel Kang24 Jun 2025
Perkiraan pemrosesan kueri (AQP) dapat mempercepat kueri analitik yang berjalan lama dengan urutan besarnya. Tapi mengapa AQP masih langka dalam produksi?
Untuk mengatasinya, kami mengembangkan PilotDB, AQP tengah online yang membuat 0 perubahan pada DBMS, memberikan hasil dengan jaminan kesalahan apriori, dan mencapai percepatan hingga 126x.
1/8
641
Perkiraan pemrosesan kueri (AQP) dapat mempercepat kueri analitik yang berjalan lama dengan urutan besarnya. Tapi mengapa AQP masih langka dalam produksi?
Untuk mengatasinya, kami mengembangkan PilotDB, AQP tengah online yang membuat 0 perubahan pada DBMS, memberikan hasil dengan jaminan kesalahan apriori, dan mencapai percepatan hingga 126x.
1/8
1,51K
@ZhanQiusi1 akan mempresentasikan karya kami di sesi poster Rabu pukul 11 pagi dan lokakarya Sabtu TrustNLP (pembicaraan sorotan)! Sapa jika Anda melihatnya

Daniel Kang13 Mar 2025
Agen AI semakin populer (misalnya, operator OpenAI) tetapi dapat diserang untuk membahayakan pengguna!
Kami menunjukkan bahwa bahkan dengan pertahanan, agen AI masih dapat disusupi melalui suntikan prompt tidak langsung melalui "serangan adaptif" dalam makalah temuan NAACL 2025 kami
🧵 dan tautan di bawah ini

111
Insinyur data menghabiskan lebih dari 60% waktu mereka untuk alur data. Bisakah agen AI membantu?
Memperkenalkan ELT-Bench, tolok ukur pertama yang mengevaluasi agen AI dalam membangun alur ELT end-to-end. Agen SOTA saat ini hanya mencapai tingkat keberhasilan 3,9% - ada jalan besar untuk pergi!
1/7

4K
Daniel Kang memposting ulang
Saat ini, AI dapat menghasilkan banyak kode—tetapi bagaimana kita tahu apakah itu bagus?
Itulah sebabnya kami membangun Sculptor: lingkungan agen pengkodean pertama.
Sculptor membantu Anda menangkap masalah, menulis pengujian, dan menyempurnakan kode—semuanya saat Anda bekerja di editor favorit Anda.
99,42K
Agen AI semakin populer (misalnya, operator OpenAI) tetapi dapat diserang untuk membahayakan pengguna!
Kami menunjukkan bahwa bahkan dengan pertahanan, agen AI masih dapat disusupi melalui suntikan prompt tidak langsung melalui "serangan adaptif" dalam makalah temuan NAACL 2025 kami
🧵 dan tautan di bawah ini

4,16K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal