Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
OpenAI
La semana pasada, nuestros modelos de razonamiento participaron en el Concurso Internacional de Programación Universitaria (ICPC) 2025, la principal competencia de programación a nivel universitario del mundo. Nuestro sistema resolvió los 12 de los 12 problemas, un rendimiento que habría colocado el primer lugar en el mundo (el mejor equipo humano resolvió 11 problemas).
Este hito completa 2 meses intensos de actuaciones en competición de nuestros modelos:
- Un segundo puesto en las finales mundiales de Heurística de AtCoder
- Medalla de oro en la Olimpiada Internacional de Matemáticas
- Medalla de oro en la Olimpiada Internacional de Informática
- Y ahora, una medalla de oro, el primer puesto en las Finales Mundiales del CIPC.
Creo que estos resultados, provenientes de una familia de modelos de razonamiento general arraigados en nuestro programa de investigación principal, son quizás el punto de referencia más claro del progreso de este año. Estas competiciones son excelentes pruebas autónomas y con un límite de tiempo para la capacidad de descubrir nuevas ideas. Incluso antes de que nuestros modelos dominaran la aritmética simple, mirábamos hacia estos concursos como hitos del progreso hacia la inteligencia artificial transformadora.
Nuestros modelos ahora se encuentran entre los mejores humanos en estos dominios, cuando se les plantean preguntas bien especificadas y se restringen a ~ 5 horas. El desafío ahora es pasar a problemas más abiertos y horizontes de tiempo mucho más largos. Este nivel de capacidad de razonamiento, aplicado durante meses y años a problemas que realmente importan, es lo que buscamos: automatizar el descubrimiento científico.
Este rápido progreso también subraya la importancia de la investigación de seguridad y alineación. Todavía necesitamos una mayor comprensión de las propiedades de alineación de los modelos de razonamiento de larga duración; en particular, recomiendo revisar los fascinantes hallazgos del estudio de la intriga en los modelos de razonamiento que publicamos hoy (
¡Felicitaciones a mis compañeros de equipo que pusieron su corazón en obtener estos resultados de la competencia, y a todos los que contribuyeron a la investigación fundamental subyacente que los permite!

Mostafa Rohaninejad18 sept, 01:06
1/n
Estoy muy emocionado de compartir que nuestro sistema de razonamiento @OpenAI obtuvo una puntuación perfecta de 12/12 durante las Finales Mundiales del CIPC 2025, la principal competencia de programación universitaria donde los mejores equipos universitarios de todo el mundo resuelven problemas algorítmicos complejos. Esto lo habría colocado en primer lugar entre todos los participantes humanos. 🥇🥇

176
Estoy extremadamente entusiasmado con el potencial de la fidelidad e interpretabilidad de la cadena de pensamiento. Ha influido significativamente en el diseño de nuestros modelos de razonamiento, comenzando con o1-preview.
A medida que los sistemas de IA gastan más trabajo informático, por ejemplo, en problemas de investigación a largo plazo, es fundamental que tengamos alguna forma de monitorear su proceso interno. La maravillosa propiedad de los CoT ocultos es que, si bien comienzan basados en un lenguaje que podemos interpretar, el procedimiento de optimización escalable no es adverso a la capacidad del observador para verificar la intención del modelo, a diferencia de, por ejemplo, la supervisión directa con un modelo de recompensa.
La tensión aquí es que si los CoT no estuvieran ocultos por defecto, y vemos el proceso como parte de la producción de la IA, hay muchos incentivos (y en algunos casos, necesidad) para supervisarlo. Creo que podemos trabajar hacia lo mejor de ambos mundos aquí: entrenar a nuestros modelos para que sean excelentes para explicar su razonamiento interno, pero al mismo tiempo conserven la capacidad de verificarlo ocasionalmente.
La fidelidad al CoT es parte de una dirección de investigación más amplia, que es la capacitación para la interpretabilidad: establecer objetivos de una manera que entrene al menos a parte del sistema para que siga siendo honesto y monitoreable con escala. Continuamos aumentando nuestra inversión en esta investigación en OpenAI.

Bowen Baker16 jul 2025
Los modelos de razonamiento modernos piensan en un lenguaje sencillo.
Monitorear sus pensamientos podría ser una herramienta poderosa, pero frágil, para supervisar futuros sistemas de IA.
Yo y los investigadores de muchas organizaciones creemos que deberíamos trabajar para evaluar, preservar e incluso mejorar la capacidad de monitoreo de CoT.

356
Populares
Ranking
Favoritas