Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
OpenAI (på engelska)
Förra veckan deltog våra resonemangsmodeller i 2025 International Collegiate Programming Contest (ICPC), världens främsta programmeringstävling på universitetsnivå. Vårt system löste alla 12 av 12 problem, en prestation som skulle ha placerat sig på första plats i världen (det bästa mänskliga teamet löste 11 problem).
Denna milstolpe avrundar en intensiv 2 månader lång tävling med våra modeller:
- En andraplats i AtCoder Heuristics World Finals
- Guldmedalj vid Internationella matematikolympiaden
- Guldmedalj vid den internationella olympiaden i informatik
- Och nu, en guldmedalj, en förstaplats i ICPC World Finals.
Jag tror att dessa resultat, som kommer från en familj av allmänna resonemangsmodeller som har sina rötter i vårt huvudsakliga forskningsprogram, kanske är det tydligaste riktmärket för framsteg i år. Dessa tävlingar är fantastiska fristående, tidsinrutade tester för förmågan att upptäcka nya idéer. Redan innan våra modeller var skickliga på enkel aritmetik såg vi på dessa tävlingar som milstolpar i utvecklingen mot transformativ artificiell intelligens.
Våra modeller rankas nu bland de bästa människorna inom dessa domäner, när de ställs med välspecificerade frågor och begränsas till ~5 timmar. Utmaningen nu är att gå mot mer öppna problem och mycket längre tidshorisonter. Denna nivå av slutledningsförmåga, tillämpad under månader och år på problem som verkligen betyder något, är vad vi är ute efter - att automatisera vetenskapliga upptäckter.
Denna snabba utveckling understryker också vikten av forskning om säkerhet och uppriktning. Vi behöver fortfarande mer förståelse för anpassningsegenskaperna hos långvariga resonemangsmodeller; i synnerhet rekommenderar jag att du granskar de fascinerande resultaten från studien av intrigerande i resonemangsmodeller som vi släppte idag (
Grattis till mina lagkamrater som lagt ner sina hjärtan i att få dessa tävlingsresultat, och till alla som bidrar till den underliggande grundforskningen som möjliggör dem!

Mostafa Rohaninejad18 sep. 01:06
1/n
Jag är verkligen glad över att kunna dela med mig av att vårt @OpenAI resonemangssystem fick ett perfekt resultat på 12/12 under 2025 ICPC World Finals, den främsta kollegiala programmeringstävlingen där toppuniversitetslag från hela världen löser komplexa algoritmiska problem. Detta skulle ha placerat den först bland alla mänskliga deltagare. 🥇🥇

171
Jag är oerhört entusiastisk över potentialen i tankekedjans trofasthet och tolkningsbarhet. Det har i hög grad påverkat utformningen av våra resonemangsmodeller, med början med o1-preview.
I takt med att AI-system ägnar mer tid åt att arbeta med t.ex. långsiktiga forskningsproblem är det viktigt att vi har något sätt att övervaka deras interna process. Den underbara egenskapen hos dolda CoT:er är att även om de till en början är grundade i ett språk som vi kan tolka, är den skalbara optimeringsproceduren inte fientlig mot observatörens förmåga att verifiera modellens avsikt - till skillnad från t.ex. direkt övervakning med en belöningsmodell.
Spänningen här är att om CoTs inte var dolda som standard, och vi ser processen som en del av AI:ns resultat, finns det många incitament (och i vissa fall nödvändighet) att sätta övervakning på den. Jag tror att vi kan arbeta mot det bästa av två världar här - träna våra modeller att vara bra på att förklara sitt interna resonemang, men samtidigt behålla förmågan att ibland verifiera det.
CoT-trohet är en del av en bredare forskningsinriktning, som är träning i tolkningsbarhet: att sätta upp mål på ett sätt som tränar åtminstone en del av systemet att förbli ärligt och kontrollerbart i stor skala. Vi fortsätter att öka våra investeringar i denna forskning på OpenAI.

Bowen Baker16 juli 2025
Modern reasoning models think in plain English.
Monitoring their thoughts could be a powerful, yet fragile, tool for overseeing future AI systems.
I and researchers across many organizations think we should work to evaluate, preserve, and even improve CoT monitorability.

351
Topp
Rankning
Favoriter