Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
OpenAI
Na semana passada, os nossos modelos de raciocínio participaram no Concurso Internacional de Programação Universitária de 2025 (ICPC), a principal competição de programação a nível universitário do mundo. O nosso sistema resolveu todos os 12 problemas, um desempenho que teria colocado em primeiro lugar no mundo (a melhor equipa humana resolveu 11 problemas).
Este marco conclui dois meses intensos de desempenhos competitivos dos nossos modelos:
- Um segundo lugar nas Finais Mundiais de Heurísticas da AtCoder
- Medalha de ouro na Olimpíada Internacional de Matemática
- Medalha de ouro na Olimpíada Internacional de Informática
- E agora, uma medalha de ouro, primeiro lugar nas Finais Mundiais do ICPC.
Acredito que estes resultados, provenientes de uma família de modelos de raciocínio geral enraizados no nosso principal programa de pesquisa, são talvez o benchmark mais claro de progresso este ano. Estas competições são ótimos testes autossuficientes e com limite de tempo para a capacidade de descobrir novas ideias. Mesmo antes de os nossos modelos serem proficientes em aritmética simples, olhávamos para estes concursos como marcos de progresso em direção à inteligência artificial transformadora.
Os nossos modelos agora estão entre os melhores humanos nestes domínios, quando confrontados com perguntas bem especificadas e limitados a ~5 horas. O desafio agora é passar para problemas mais abertos e horizontes de tempo muito mais longos. Este nível de capacidade de raciocínio, aplicado ao longo de meses e anos a problemas que realmente importam, é o que procuramos - automatizar a descoberta científica.
Este progresso rápido também sublinha a importância da pesquisa em segurança e alinhamento. Ainda precisamos de mais compreensão das propriedades de alinhamento de modelos de raciocínio de longa duração; em particular, recomendo a revisão das descobertas fascinantes do estudo de esquemas em modelos de raciocínio que lançamos hoje.
Parabéns aos meus colegas de equipa que se dedicaram a obter estes resultados nas competições, e a todos que contribuem para a pesquisa fundamental subjacente que os possibilita!

Mostafa Rohaninejad18/09, 01:06
1/n
Estou realmente entusiasmado em compartilhar que nosso sistema de raciocínio @OpenAI obteve uma pontuação perfeita de 12/12 durante as Finais Mundiais da ICPC 2025, a principal competição de programação universitária onde as melhores equipes universitárias do mundo resolvem problemas algorítmicos complexos. Isso o colocaria em primeiro lugar entre todos os participantes humanos. 🥇🥇

156
Estou extremamente entusiasmado com o potencial da fidelidade da cadeia de pensamento e da interpretabilidade. Isso influenciou significativamente o design de nossos modelos de raciocínio, começando com o1-preview.
Como os sistemas de IA gastam mais computação trabalhando, por exemplo, em problemas de pesquisa de longo prazo, é fundamental que tenhamos alguma maneira de monitorar seu processo interno. A maravilhosa propriedade dos CoTs ocultos é que, embora eles comecem fundamentados na linguagem que podemos interpretar, o procedimento de otimização escalável não é contraditório à capacidade do observador de verificar a intenção do modelo - ao contrário, por exemplo, da supervisão direta com um modelo de recompensa.
A tensão aqui é que, se os CoTs não foram escondidos por padrão, e vemos o processo como parte da saída da IA, há muito incentivo (e, em alguns casos, necessidade) para colocar supervisão sobre ele. Acredito que podemos trabalhar para o melhor dos dois mundos aqui - treinar nossos modelos para serem ótimos em explicar seu raciocínio interno, mas ao mesmo tempo ainda manter a capacidade de verificá-lo ocasionalmente.
A fidelidade CdT faz parte de uma direção de pesquisa mais ampla, que é o treinamento para a interpretabilidade: definir objetivos de uma forma que treine pelo menos parte do sistema para permanecer honesto e monitorável com escala. Continuamos a aumentar o nosso investimento nesta investigação na OpenAI.

Bowen Baker16/07/2025
Modern reasoning models think in plain English.
Monitoring their thoughts could be a powerful, yet fragile, tool for overseeing future AI systems.
I and researchers across many organizations think we should work to evaluate, preserve, and even improve CoT monitorability.

340
Top
Classificação
Favoritos