Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
Mở AI
Tuần trước, các mô hình lý luận của chúng tôi đã tham gia vào Cuộc thi Lập trình Đại học Quốc tế 2025 (ICPC), cuộc thi lập trình cấp đại học hàng đầu thế giới. Hệ thống của chúng tôi đã giải quyết tất cả 12/12 bài toán, một thành tích sẽ xếp hạng nhất thế giới (đội ngũ con người tốt nhất đã giải quyết 11 bài toán).
Cột mốc này khép lại 2 tháng thi đấu căng thẳng của các mô hình của chúng tôi:
- Vị trí thứ hai tại Giải vô địch Thế giới AtCoder Heuristics
- Huy chương vàng tại Olympic Toán học Quốc tế
- Huy chương vàng tại Olympic Tin học Quốc tế
- Và bây giờ, huy chương vàng, vị trí nhất tại Giải vô địch Thế giới ICPC.
Tôi tin rằng những kết quả này, đến từ một gia đình các mô hình lý luận tổng quát được xây dựng trên chương trình nghiên cứu chính của chúng tôi, có lẽ là tiêu chuẩn rõ ràng nhất về sự tiến bộ trong năm nay. Những cuộc thi này là những bài kiểm tra tự chứa, có thời gian giới hạn tuyệt vời cho khả năng khám phá những ý tưởng mới. Ngay cả trước khi các mô hình của chúng tôi thành thạo trong toán học đơn giản, chúng tôi đã nhìn về những cuộc thi này như là những cột mốc tiến bộ hướng tới trí tuệ nhân tạo biến đổi.
Các mô hình của chúng tôi hiện xếp hạng trong số những con người hàng đầu trong các lĩnh vực này, khi được đặt ra những câu hỏi rõ ràng và bị giới hạn trong khoảng ~5 giờ. Thách thức bây giờ là chuyển sang những vấn đề mở hơn, và thời gian dài hơn nhiều. Mức độ khả năng lý luận này, được áp dụng trong nhiều tháng và nhiều năm cho những vấn đề thực sự quan trọng, là điều mà chúng tôi đang hướng tới - tự động hóa khám phá khoa học.
Sự tiến bộ nhanh chóng này cũng nhấn mạnh tầm quan trọng của nghiên cứu về an toàn và sự phù hợp. Chúng tôi vẫn cần hiểu biết nhiều hơn về các thuộc tính phù hợp của các mô hình lý luận dài hạn; đặc biệt, tôi khuyên bạn nên xem xét những phát hiện thú vị từ nghiên cứu về sự lập kế hoạch trong các mô hình lý luận mà chúng tôi đã công bố hôm nay (
Chúc mừng các đồng đội của tôi đã dồn hết tâm huyết để đạt được những kết quả thi đấu này, và đến tất cả những người đóng góp cho nghiên cứu cơ bản nền tảng cho phép họ!

Mostafa Rohaninejad01:06 18 thg 9
1/n
Tôi rất hào hứng chia sẻ rằng hệ thống lý luận của @OpenAI đã đạt điểm tuyệt đối 12/12 trong vòng chung kết ICPC Thế giới 2025, cuộc thi lập trình đại học hàng đầu nơi các đội đại học hàng đầu từ khắp nơi trên thế giới giải quyết các vấn đề thuật toán phức tạp. Điều này sẽ đưa nó đứng đầu trong số tất cả các thí sinh con người. 🥇🥇

154
Tôi vô cùng hào hứng về tiềm năng của sự trung thực và khả năng diễn giải của chuỗi tư tưởng. Nó đã ảnh hưởng đáng kể đến thiết kế của các mô hình suy luận của chúng tôi, bắt đầu với o1-preview.
Khi các hệ thống AI dành nhiều công việc điện toán hơn, ví dụ như cho các vấn đề nghiên cứu dài hạn, điều quan trọng là chúng ta phải có một số cách để giám sát quá trình nội bộ của chúng. Thuộc tính tuyệt vời của CoT ẩn là trong khi chúng bắt đầu dựa trên ngôn ngữ mà chúng ta có thể diễn giải, quy trình tối ưu hóa có thể mở rộng không đối nghịch với khả năng của người quan sát để xác minh ý định của mô hình - không giống như giám sát trực tiếp với mô hình phần thưởng.
Căng thẳng ở đây là nếu CoT không bị ẩn theo mặc định và chúng tôi xem quá trình này là một phần của đầu ra của AI, thì có rất nhiều động lực (và trong một số trường hợp, cần thiết) để giám sát nó. Tôi tin rằng chúng ta có thể làm việc hướng tới những điều tốt nhất của cả hai thế giới ở đây - đào tạo các mô hình của chúng ta để giải thích lý luận bên trong của chúng một cách giỏi, nhưng đồng thời vẫn giữ được khả năng thỉnh thoảng xác minh nó.
Sự trung thành của CoT là một phần của định hướng nghiên cứu rộng lớn hơn, đó là đào tạo khả năng diễn giải: thiết lập các mục tiêu theo cách đào tạo ít nhất một phần của hệ thống để duy trì sự trung thực và có thể giám sát được với quy mô. Chúng tôi đang tiếp tục tăng cường đầu tư vào nghiên cứu này tại OpenAI.

Bowen Baker16 thg 7, 2025
Modern reasoning models think in plain English.
Monitoring their thoughts could be a powerful, yet fragile, tool for overseeing future AI systems.
I and researchers across many organizations think we should work to evaluate, preserve, and even improve CoT monitorability.

338
Hàng đầu
Thứ hạng
Yêu thích