Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Nghiên cứu lý luận @OpenAI | Đồng tạo ra các AI poker siêu phàm Libratus/Pluribus, CICERO Diplomacy AI và OpenAI o3 / o1 / mô 🍓 hình lý luận
Tôi đã lập trình một trình giải poker river mã nguồn mở trong kỳ nghỉ lễ. Mã nguồn được viết hoàn toàn bởi Codex, và tôi cũng đã tạo một phiên bản với Claude Code để so sánh.
Nhìn chung, những công cụ này cho phép tôi lặp lại nhanh hơn trong một lĩnh vực mà tôi biết rõ. Nhưng tôi cũng cảm thấy rằng tôi không thể hoàn toàn tin tưởng chúng. Chúng thường mắc lỗi và gặp phải các lỗi phần mềm, nhưng thay vì thừa nhận điều đó, chúng thường nghĩ rằng đó không phải là vấn đề lớn hoặc, đôi khi, chỉ đơn giản là cố gắng khiến tôi nghĩ rằng không có gì sai cả.
Trong một phiên làm gỡ lỗi đáng nhớ với Claude Code, tôi đã hỏi nó, như một kiểm tra sanity, giá trị kỳ vọng của một chiến lược "luôn bỏ" khi người chơi có $100 trong pot. Nó nói với tôi rằng theo thuật toán của nó, EV là -$93. Khi tôi chỉ ra điều đó thật kỳ lạ, hy vọng nó sẽ nhận ra rằng có một lỗi, nó đã trấn an tôi rằng $93 gần với $100 nên có lẽ không sao. (Khi tôi yêu cầu nó xem xét các blocker như một vấn đề tiềm năng, nó đã thừa nhận rằng thuật toán thực sự không tính đến chúng một cách chính xác.) Codex cũng không tốt hơn nhiều về điều này, và đã gặp phải một loạt các lỗi và sai sót thuật toán (thú vị) mà tôi phải làm việc cẩn thận để giải quyết. May mắn thay, tôi đã có thể làm việc qua những điều này vì tôi là một chuyên gia về các trình giải poker, nhưng tôi không nghĩ có nhiều người khác có thể thành công trong việc tạo ra trình giải này bằng cách sử dụng các công cụ lập trình AI.
Trải nghiệm gây khó chịu nhất là tạo một GUI. Sau một tá lần đi lại, cả Codex và Claude Code đều không thể tạo ra giao diện mà tôi yêu cầu, mặc dù giao diện của Claude Code ít nhất thì đẹp hơn. Tôi không có kinh nghiệm về frontend, vì vậy có thể những gì tôi yêu cầu đơn giản là không thể thực hiện được, nhưng nếu đó là trường hợp thì tôi ước họ đã *nói* với tôi rằng điều đó khó khăn hoặc không thể thay vì liên tục tạo ra các triển khai bị lỗi hoặc những thứ tôi không yêu cầu. Điều này đã làm nổi bật cho tôi thấy rằng vẫn còn một sự khác biệt lớn giữa việc làm việc với một đồng đội con người và làm việc với một AI.
Sau khi các triển khai ban đầu hoàn tất và được gỡ lỗi, tôi đã yêu cầu Codex và Claude Code tạo ra các phiên bản C++ tối ưu hóa. Về điều này, Codex đã làm khá tốt. Phiên bản C++ của nó nhanh hơn 6 lần so với của Claude Code (ngay cả sau nhiều lần yêu cầu tối ưu hóa thêm). Các tối ưu hóa của Codex vẫn không tốt bằng những gì tôi có thể làm, nhưng một lần nữa, tôi đã dành 6 năm làm tiến sĩ để tạo ra các bot poker. Nhìn chung, tôi nghĩ Codex đã làm một công việc ấn tượng về điều này.
Yêu cầu cuối cùng của tôi là hỏi các AI xem chúng có thể nghĩ ra các thuật toán mới có thể giải quyết các river NLTH nhanh hơn không. Không ai thành công trong việc này, điều này không có gì ngạc nhiên. Các LLM đang ngày càng tốt hơn nhanh chóng, nhưng phát triển các thuật toán mới cho loại việc này là một dự án nghiên cứu kéo dài hàng tháng cho một chuyên gia con người. Các LLM vẫn chưa đạt đến cấp độ đó.

545
Một bài học quan trọng mà ARC-AGI đã tiếp thu, nhưng không nhiều người khác có, là hiệu suất chuẩn là một hàm của tính toán thời gian kiểm tra.
@OpenAI công bố kết quả chuẩn với một số duy nhất vì điều đó đơn giản hơn và mọi người mong đợi được thấy, nhưng lý tưởng nhất là tất cả các đánh giá sẽ có một trục x.

ARC Prize12 thg 12, 2025
Một năm trước, chúng tôi đã xác minh một bản xem trước của phiên bản chưa phát hành của @OpenAI o3 (Cao) với điểm số 88% trên ARC-AGI-1 với chi phí ước tính là 4.5k đô la/mỗi tác vụ
Hôm nay, chúng tôi đã xác minh một điểm số SOTA mới của GPT-5.2 Pro (X-Cao) là 90.5% với chi phí 11.64 đô la/mỗi tác vụ
Điều này đại diện cho sự cải thiện hiệu suất khoảng ~390X trong một năm.

441
Hàng đầu
Thứ hạng
Yêu thích
