Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Professeur adjoint à l’UIUC CS. Anciennement dans le laboratoire DAWN de Stanford et le Sky Lab de Berkeley.
SWE-bench Verified est la référence en matière d'évaluation des agents de codage : 500 problèmes réels + tests par OpenAI. Ça semble infaillible ? Pas tout à fait.
Nous montrons que passer ses tests unitaires != correspondre à la vérité de terrain. Dans notre article ACL, nous avons corrigé des évaluations défectueuses : 24 % des agents ont changé de position dans le classement !
1/7

24,87K
L'apprentissage par renforcement permet aux LLM de battre les humains lors de compétitions de programmation/mathématiques et a conduit à des avancées récentes (la série o d'OpenAI, Claude 4 d'Anthropic)
L'apprentissage par renforcement permettra-t-il une généralisation large de la même manière que le pré-entraînement ? Pas avec les techniques actuelles
🧵 1/7
2,59K
Je présenterai lors de la session d'affiches 2 à SIGMOD (mercredi à 16h00 dans Potsdam II). Venez dire bonjour !

Daniel Kang24 juin 2025
Le traitement de requêtes approximatives (AQP) peut accélérer les requêtes analytiques de longue durée de plusieurs ordres de grandeur. Mais pourquoi l'AQP est-elle encore rare en production ?
Pour y remédier, nous développons PilotDB, un middleware AQP en ligne qui ne nécessite aucune modification des SGBD, fournit des résultats avec des garanties d'erreur a priori et atteint jusqu'à 126 fois plus de rapidité.
1/8
644
Le traitement de requêtes approximatives (AQP) peut accélérer les requêtes analytiques de longue durée de plusieurs ordres de grandeur. Mais pourquoi l'AQP est-elle encore rare en production ?
Pour y remédier, nous développons PilotDB, un middleware AQP en ligne qui ne nécessite aucune modification des SGBD, fournit des résultats avec des garanties d'erreur a priori et atteint jusqu'à 126 fois plus de rapidité.
1/8
1,52K
@ZhanQiusi1 présenterons notre travail lors de la session d’affiches du mercredi à 11 heures et de l’atelier TrustNLP du samedi ! Dites bonjour si vous la voyez

Daniel Kang13 mars 2025
Les agents d’IA sont de plus en plus populaires (par exemple, l’opérateur d’OpenAI) mais peuvent être attaqués pour nuire aux utilisateurs !
Dans notre article sur les résultats de la NAACL 2025, nous montrons que même avec des défenses, les agents d’IA peuvent toujours être compromis par des injections indirectes d’invites via des « attaques adaptatives ».
🧵 et les liens ci-dessous

113
Les ingénieurs de données passent plus de 60 % de leur temps sur les pipelines de données. Les agents d’IA peuvent-ils aider ?
Présentation d’ELT-Bench, le premier benchmark évaluant les agents d’IA sur la création de pipelines ELT de bout en bout. Les agents SOTA actuels n’atteignent qu’un taux de réussite de 3,9 % - il y a un énorme chemin à parcourir !
1/7

4K
Daniel Kang a reposté
Aujourd’hui, l’IA peut générer des tonnes de code, mais comment savoir si c’est bon ?
C’est pourquoi nous avons créé Sculptor : le premier environnement d’agent de codage.
Sculptor vous aide à détecter les problèmes, à écrire des tests et à améliorer votre code, tout en travaillant dans votre éditeur préféré.
99,42K
Les agents d’IA sont de plus en plus populaires (par exemple, l’opérateur d’OpenAI) mais peuvent être attaqués pour nuire aux utilisateurs !
Dans notre article sur les résultats de la NAACL 2025, nous montrons que même avec des défenses, les agents d’IA peuvent toujours être compromis par des injections indirectes d’invites via des « attaques adaptatives ».
🧵 et les liens ci-dessous

4,16K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables