Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
OpenAI
Afgelopen week namen onze redeneermodellen deel aan de 2025 International Collegiate Programming Contest (ICPC), de belangrijkste programmeerwedstrijd op universitair niveau ter wereld. Ons systeem loste alle 12 van de 12 problemen op, een prestatie die wereldwijd de eerste plaats zou hebben opgeleverd (het beste menselijke team loste 11 problemen op).
Deze mijlpaal sluit een intense periode van 2 maanden van competitieprestaties door onze modellen af:
- Een tweede plaats in de AtCoder Heuristics World Finals
- Gouden medaille op de Internationale Wiskunde Olympiade
- Gouden medaille op de Internationale Olympiade in Informatica
- En nu, een gouden medaille, eerste plaats op de ICPC World Finals.
Ik geloof dat deze resultaten, voortkomend uit een familie van algemene redeneermodellen die zijn geworteld in ons belangrijkste onderzoeksprogramma, misschien wel de duidelijkste maatstaf voor vooruitgang dit jaar zijn. Deze competities zijn geweldige zelf-contained, tijdgebonden tests voor het vermogen om nieuwe ideeën te ontdekken. Zelfs voordat onze modellen bedreven waren in eenvoudige rekenkunde, keken we naar deze wedstrijden als mijlpalen van vooruitgang richting transformerende kunstmatige intelligentie.
Onze modellen behoren nu tot de top van de mensen in deze domeinen, wanneer ze worden geconfronteerd met goed gedefinieerde vragen en beperkt zijn tot ~5 uur. De uitdaging nu is om over te stappen naar meer open-eindige problemen en veel langere tijdshorizonten. Dit niveau van redeneervermogen, toegepast over maanden en jaren op problemen die er echt toe doen, is wat we nastreven - het automatiseren van wetenschappelijke ontdekking.
Deze snelle vooruitgang benadrukt ook het belang van veiligheid en afstemming onderzoek. We hebben nog meer begrip nodig van de afstemmings eigenschappen van langlopende redeneermodellen; in het bijzonder raad ik aan om de fascinerende bevindingen te bekijken van de studie naar samenzwering in redeneermodellen die we vandaag hebben vrijgegeven.
Gefeliciteerd aan mijn teamgenoten die hun hart hebben gestoken in het behalen van deze competitie resultaten, en aan iedereen die bijdraagt aan het onderliggende fundamentele onderzoek dat hen mogelijk maakt!

Mostafa Rohaninejad18 sep, 01:06
1/n
Ik ben echt enthousiast om te delen dat ons @OpenAI redeneersysteem een perfecte score van 12/12 heeft behaald tijdens de ICPC Wereldfinales 2025, de belangrijkste universitaire programmeerwedstrijd waar topuniversiteitsteams van over de hele wereld complexe algoritmische problemen oplossen. Dit zou het eerste hebben geplaatst onder alle menselijke deelnemers. 🥇🥇

155
Ik ben enorm enthousiast over het potentieel van gedachteketentrouw en interpreteerbaarheid. Het heeft het ontwerp van onze redeneermodellen aanzienlijk beïnvloed, te beginnen met o1-preview.
Naarmate AI-systemen meer geld uitgeven aan bijvoorbeeld langetermijnonderzoeksproblemen, is het van cruciaal belang dat we een manier hebben om hun interne proces te monitoren. De prachtige eigenschap van verborgen CoT's is dat, hoewel ze beginnen met een taal die we kunnen interpreteren, de schaalbare optimalisatieprocedure niet in strijd is met het vermogen van de waarnemer om de intentie van het model te verifiëren - in tegenstelling tot bijvoorbeeld direct toezicht met een beloningsmodel.
De spanning hier is dat als de CoT's niet standaard verborgen waren, en we het proces zien als onderdeel van de output van de AI, er veel prikkel (en in sommige gevallen noodzaak) is om er toezicht op te houden. Ik geloof dat we hier naar het beste van twee werelden kunnen werken: onze modellen trainen om goed te zijn in het uitleggen van hun interne redenering, maar tegelijkertijd toch de mogelijkheid behouden om het af en toe te verifiëren.
CoT-trouw maakt deel uit van een bredere onderzoeksrichting, namelijk training voor interpreteerbaarheid: doelen stellen op een manier die ten minste een deel van het systeem traint om eerlijk en controleerbaar te blijven met schaal. Bij OpenAI blijven we onze investering in dit onderzoek verhogen.

Bowen Baker16 jul 2025
Modern reasoning models think in plain English.
Monitoring their thoughts could be a powerful, yet fragile, tool for overseeing future AI systems.
I and researchers across many organizations think we should work to evaluate, preserve, and even improve CoT monitorability.

339
Boven
Positie
Favorieten