Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Professore associato presso UIUC CS. Precedentemente nel laboratorio DAWN di Stanford e nel Berkeley Sky Lab.
SWE-bench Verified è lo standard d'oro per valutare gli agenti di codifica: 500 problemi reali + test di OpenAI. Sembra a prova di proiettile? Non proprio.
Mostriamo che superare i suoi test unitari != corrispondere alla verità di base. Nel nostro articolo ACL, abbiamo corretto valutazioni difettose: il 24% degli agenti è salito o sceso nella classifica!
1/7

24,87K
L'apprendimento per rinforzo consente ai LLM di battere gli esseri umani nelle competizioni di programmazione/matematica e ha guidato i recenti progressi (la serie o di OpenAI, Claude 4 di Anthropic)
L'apprendimento per rinforzo permetterà una generalizzazione ampia nello stesso modo in cui lo fa il pre-addestramento? Non con le tecniche attuali
🧵 1/7
2,59K
Presenterò alla sessione poster 2 al SIGMOD (mercoledì alle 16:00 in Potsdam II). Vieni a salutarmi!

Daniel Kang24 giu 2025
Il processamento delle query approssimative (AQP) può accelerare le query analitiche a lungo termine di ordini di grandezza. Ma perché l'AQP è ancora raro in produzione?
Per affrontare questo problema, sviluppiamo PilotDB, un middleware AQP online che non apporta modifiche ai DBMS, fornisce risultati con garanzie di errore a priori e raggiunge un'accelerazione fino a 126 volte.
1/8
648
Il processamento delle query approssimative (AQP) può accelerare le query analitiche a lungo termine di ordini di grandezza. Ma perché l'AQP è ancora raro in produzione?
Per affrontare questo problema, sviluppiamo PilotDB, un middleware AQP online che non apporta modifiche ai DBMS, fornisce risultati con garanzie di errore a priori e raggiunge un'accelerazione fino a 126 volte.
1/8
1,52K
@ZhanQiusi1 presenteremo il nostro lavoro alla sessione poster del mercoledì alle 11 del mattino e al workshop TrustNLP del sabato (spotlight talk)! Saluta se la vedi

Daniel Kang13 mar 2025
Gli agenti di intelligenza artificiale sono sempre più popolari (ad esempio, l'operatore di OpenAI) ma possono essere attaccati per danneggiare gli utenti!
Dimostriamo che, anche con le difese, gli agenti di intelligenza artificiale possono ancora essere compromessi tramite iniezioni di prompt indiretti tramite "attacchi adattivi" nel nostro documento sui risultati NAACL 2025
🧵 e i link sottostanti

115
Gli ingegneri dei dati dedicano oltre il 60% del loro tempo alle pipeline di dati. Gli agenti di intelligenza artificiale possono aiutare?
Presentazione di ELT-Bench, il primo benchmark che valuta gli agenti di intelligenza artificiale nella creazione di pipeline ELT end-to-end. Gli attuali agenti SOTA raggiungono solo una percentuale di successo del 3,9%: c'è ancora molta strada da fare!
1/7

4K
Daniel Kang ha ripubblicato
Oggi, l'intelligenza artificiale può generare tonnellate di codice, ma come facciamo a sapere se è buono?
Ecco perché abbiamo creato Sculptor: il primo ambiente di agenti di codifica.
Sculptor ti aiuta a rilevare problemi, scrivere test e migliorare il tuo codice, il tutto mentre lavori nel tuo editor preferito.
99,42K
Gli agenti di intelligenza artificiale sono sempre più popolari (ad esempio, l'operatore di OpenAI) ma possono essere attaccati per danneggiare gli utenti!
Dimostriamo che, anche con le difese, gli agenti di intelligenza artificiale possono ancora essere compromessi tramite iniezioni di prompt indiretti tramite "attacchi adattivi" nel nostro documento sui risultati NAACL 2025
🧵 e i link sottostanti

4,17K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari