Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dawn Song
Professor i informatikk ved UC Berkeley, meddirektør for Berkeley RDI Center; Bygge trygg, sikker, desentralisert AI; Seriegründer
Fortsatt summende fra det utrolige #AgenticAI Summit på @UCBerkeley den 8/2 - 2,000+ ble med personlig, 30,000+ stilte inn online. ⚡🌍
Energien var elektrisk – visjonære, byggherrer og forskere som formet fremtiden for agentisk AI!
Gikk du glipp av det? Se opptakene:
Stor takk til våre foredragsholdere, sponsorer, @BerkeleyRDI ansatte, frivillige og alle som ble med!
Dette momentumet bygger på vårt 25K+ LLM Agents MOOC-fellesskap – og vi lanserer en ny utgave, Agentic AI, i serien i september! Registrer deg her:

3,33K
Bli med oss på Agentic AI Summit 2025 – 2. august på UC Berkeley, med ~2,000 personlige deltakere og de ledende hjernene innen AI.
Med utgangspunkt i momentumet til 25K+ LLM Agents MOOC-fellesskapet, er dette den største og mest banebrytende begivenheten på #AgenticAI.
Når 2025 fremstår som agentenes år, tilbyr toppmøtet et sete på første rad til gjennombruddene som former fremtiden til #AgenticAI. Vær en del av bevegelsen.
👀 Registrer deg for personlig eller online oppmøte:

13,64K
My group & collaborators have developed many popular benchmarks over the years, e.g., MMLU, MATH, APPS---really excited about our latest benchmark OMEGA Ω:
🔍Can LLMs really think outside the box in math?
a new benchmark probing 3 axes of generalization:
1️⃣ Exploratory
2️⃣ Compositional
3️⃣ Transformative
showing limitations of today's frontier AI and RL-training in these dimensions of generalization.
Inspired by Boden’s typology of creativity, OMEGA advances beyond prior benchmarks with a programmatically generated dataset that combines precise control with rich diversity. Spanning a wide range of mathematical domains, it is explicitly designed to evaluate distinct axes of generalization and creative reasoning.
By isolating and quantifying fine-grained failure modes, OMEGA provides a foundation for advancing LLMs toward genuine mathematical creativity—beyond mechanical proficiency.
Huge thanks to my postdoc @YiyouSun @UCBerkeley leading the project, and amazing collaborators @nouhadziri @HannaHajishirzi @allen_ai and other co-authors!

Nouha Dziri25. juni 2025
📢 Can LLMs really reason outside the box in math? Or are they just remixing familiar strategies?
Remember DeepSeek R1, o1 have impressed us on Olympiad-level math but also they were failing at simple arithmetic 😬
We built a benchmark to find out → OMEGA Ω 📐
💥 We found that although very powerful, RL struggles to compose skills and to innovate new strategies that were not seen during training. 👇
work w. @UCBerkeley @allen_ai
A thread on what we learned 🧵

20,6K
1/ 🔥 AI-agenter når et gjennombruddsøyeblikk innen cybersikkerhet.
I vårt siste arbeid:
🔓 CyberGym: AI-agenter oppdaget 15 nulldager i store åpen kildekode-prosjekter
💰 BountyBench: AI-agenter løste virkelige bug bounty-oppgaver verdt titusenvis av dollar
🤖 Selvstendig.
Et sentralt skifte er på gang – AI-agenter kan nå autonomt gjøre det bare menneskelige elitehackere kunne før.

50,12K
Veldig glad for å dele vårt siste arbeid på AgentSynth:
Et nytt paradigme for å generere realistiske, skalerbare og langsiktige databruksoppgaver og benchmarks!
Vår automatiserte pipeline genererer et datasett med 6,000+ oppgaver med to revolusjonerende fordeler:
Dramatiske kostnadsbesparelser 💰 : AgentSynth produserer oppgaver til bare $0.60 per bane – størrelsesordener billigere enn tradisjonell menneskelig kommentar.
High-Fidelity-kompleksitet 🧗 : Disse oppgavene gjenspeiler langsiktige utfordringer i den virkelige verden, og krever ofte at agenter koordinerer på tvers av flere applikasjoner som Chrome, VS Code og LibreOffice for å lykkes.
6,2K
🔐 Frontier AI omformer cybersikkerhet, og reiser kritiske nye spørsmål:
🔍 Hva er dens nåværende innvirkning?
⚖️ Hvem kan dra mest nytte av det – angripere eller forsvarere?
🛡️ Hvordan kan vi redusere risikoen?
Å håndtere disse utfordringene krever koordinert innsats på tvers av AI- og sikkerhetsmiljøer.
I vår nylige artikkel utforsker vi det utviklende landskapet, analyserer dynamikken mellom angripere og forsvarere, og etterlyser proaktive tiltak for å sikre at grense-AI tipper balansen mot forsvar i stedet for angrep.
Vi spår at angripere på kort sikt sannsynligvis vil få mer umiddelbare fordeler fra AI-evner enn forsvarere. Det er imidlertid komplekst å forutsi denne dynamikken – og perspektivet ditt er avgjørende for å forbedre vår kollektive forståelse og respons.
Vi inviterer alle AI- og cybersikkerhetseksperter og -utøvere til å ta vår korte spørreundersøkelse og dele dine synspunkter – enten du er enig eller uenig i våre spådommer. #AI #CyberSecurity 🧵👇

10K
🌟 Excited to announce our esteemed panel of judges for the #AgentX competition by @BerkeleyRDI @UCBerkeley. Huge thanks to @xinyun_chen_ @Chi_Wang_ @GoogleDeepMind; @KaiyuYang4 @Meta; @jayrodge15 @ZhidingYu @nvidia; @Somil_Agg @schmidtsciences; Samuel Barry @MistralAI; @bhawna_tweets, Austin Arensberg @Okta; @ben_burtenshaw @huggingface; @chuanli11 @ThomasBord50495 @LambdaAPI; @ozenhati Ben Ankiel @GroqInc; @waseem_s @Get_Writer; @SaraIttelson @Accel; @kevinzhang @BainCapVC; @ReddyVijayB @Mayfield; @maddiehfaulkner @NEA; @whoisnnamdi @David_Schmaier @LightspeedVP; @NextBigTeng @bhavikvnagda @BessemerVP; @divy93t @Google; @ysu_nlp @OhioState; Pushkar Nandkar @SambaNovaAI; Alok Tongaonkar @Cisco for joining us as judges, and more to be announced.
🚀 Close to 1,000 teams already joined #AgentX—building the future of Agentic AI across Entrepreneurship & Research tracks!
💰 Prize pool now $150K+, with total prizes/resources surpassing $450K!
🤖 Join NOW for the AgentX Competition and submit your projects by 5/31. ⏰

9,84K
Excited to speak at @RSAConference 2025! Join my session "Safety and Security of LLM Agents: Challenges and Future Directions" on May 1 (12:20-1:10 PM PT). We'll explore safety and security challenges of LLM agents and discuss best practices for safe and secure LLM deployment. #RSAC #AI #CyberSecurity

2,94K
Dypt ydmyk og beæret over å bli valgt inn i American Academy of Arts and Sciences @americanacad! Spent på å bidra til akademiets oppdrag og fremme det felles beste!


American Academy of Arts & Sciences24. apr. 2025
Ny! Kunngjøring av akademimedlem. Dedikert til å hedre fortreffelighet og fremme det felles beste, fra 1780 til i dag.
12,37K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til