Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

EigenPhi HQ 🎯 Wisdom of DeFi (🔭, 🎙) 🦇🔊
Các trường hợp sử dụng AI doanh nghiệp là nơi mà việc xác minh thường trở nên rối rắm. Nhưng nếu bạn có thể khai thác các nhật ký có cấu trúc, ý định kinh tế hoặc hành vi của đại lý, bạn có thể củng cố tín hiệu. Hãy cùng nhau làm việc để đưa những hành vi có thể xác minh đó vào các chế độ đào tạo mô hình.

Salesforce AI Research08:57 24 thg 9
📣 Biến thể trong Xác minh: Hiểu biết về Động lực Xác minh trong Các Mô hình Ngôn ngữ Lớn
📄 Bài báo:
🔗 Dự án:
Bạn có bao giờ tự hỏi liệu trình xác minh LLM của bạn có thực sự đáng tin cậy cho nhiệm vụ của bạn không? Khung phân tích của chúng tôi tiết lộ ba yếu tố chính quyết định thành công của việc xác minh qua độ khó của vấn đề, khả năng của bộ sinh và khả năng của bộ xác minh.
Những hiểu biết chính:
📈 Độ khó của vấn đề thúc đẩy việc nhận diện phản hồi đúng - các bộ xác minh xuất sắc trong các vấn đề dễ nhưng gặp khó khăn với những vấn đề khó
🔍 Sức mạnh của bộ sinh ảnh hưởng đến việc phát hiện lỗi - các bộ sinh yếu tạo ra những sai lầm rõ ràng, trong khi các bộ sinh mạnh tạo ra những giải pháp tinh tế nhưng sai
⚖️ Quy mô của bộ xác minh cho thấy lợi tức giảm dần trong một số chế độ - đôi khi GPT-4o chỉ nhỉnh hơn các mô hình nhỏ hơn một chút
💡 Đối với việc mở rộng thời gian kiểm tra: các bộ sinh yếu + xác minh có thể đạt được hiệu suất tương đương với các bộ sinh mạnh, và các bộ xác minh đắt tiền không phải lúc nào cũng xứng đáng.
Công việc tuyệt vời của Yefan Zhou @LiamZhou98, Austin Xu @austinsxu, Yilun Zhou @YilunZhou, Janvijay Singh @iamjanvijay, Jiang Gui @JiangGui, Shafiq Joty @JotyShafiq!
#LLM #AIVerification #TestTimeScaling #FutureOfAI #EnterpriseAI

749
Chúc mừng đội ngũ TOOL 👏 Việc nâng cao Ethereum thành một đồng xử lý siêu quy mô là một bước ngoặt. Ở phía chúng tôi, cơ sở hạ tầng mở rộng chỉ phát triển khi được kết hợp với dữ liệu minh bạch, có thể kiểm toán về quy trình giao dịch và ưu tiên. Nếu không có điều này, độ trễ thấp trong việc hoàn tất sẽ mở ra cánh cửa cho sự tập trung.

0xprincess22:26 24 thg 9
1// Chúng tôi tự hào thông báo ra mắt TOOL Testnet!
3,35K
Luật của người xác minh là một góc nhìn tuyệt vời, Jason. Tôi tò mò về suy nghĩ của bạn về các lĩnh vực như mật mã học hoặc hồ sơ trên chuỗi—nơi mà việc xác minh gần như miễn phí nhưng độ phức tạp của giải pháp lại bùng nổ? 💭🔐

Jason Wei16 thg 7, 2025
Bài đăng trên blog mới về sự bất đối xứng của xác minh và "định luật của người xác minh":
Sự bất đối xứng của xác minh – ý tưởng rằng một số nhiệm vụ dễ xác minh hơn nhiều so với giải quyết – đang trở thành một ý tưởng quan trọng vì chúng ta có RL cuối cùng cũng hoạt động chung.
Ví dụ tuyệt vời về sự bất đối xứng của xác minh là những thứ như câu đố sudoku, viết mã cho một trang web như instagram và các vấn đề BrowseComp (mất ~ 100 trang web để tìm câu trả lời, nhưng dễ dàng xác minh khi bạn có câu trả lời).
Các tác vụ khác có tính xác minh gần như đối xứng, như tổng hai số 900 chữ số hoặc một số tập lệnh xử lý dữ liệu. Tuy nhiên, các nhiệm vụ khác dễ dàng hơn nhiều để đề xuất các giải pháp khả thi hơn là xác minh chúng (ví dụ: kiểm tra thực tế một bài luận dài hoặc nêu một chế độ ăn kiêng mới như "chỉ ăn bò rừng").
Một điều quan trọng cần hiểu về sự bất đối xứng của xác minh là bạn có thể cải thiện sự bất đối xứng bằng cách thực hiện một số công việc trước. Ví dụ: nếu bạn có câu trả lời cho một bài toán hoặc nếu bạn có các trường hợp kiểm tra cho một bài toán Leetcode. Điều này làm tăng đáng kể tập hợp các vấn đề với sự bất đối xứng xác minh mong muốn.
"Định luật của người xác minh" nói rằng mức độ dễ dàng của việc đào tạo AI để giải quyết một nhiệm vụ tỷ lệ thuận với mức độ có thể kiểm chứng của nhiệm vụ. Tất cả các nhiệm vụ có thể giải quyết và dễ xác minh sẽ được AI giải quyết. Khả năng đào tạo AI để giải quyết một nhiệm vụ tỷ lệ thuận với việc nhiệm vụ đó có các thuộc tính sau hay không:
1. Sự thật khách quan: mọi người đều đồng ý giải pháp tốt là gì
2. Xác minh nhanh chóng: bất kỳ giải pháp nhất định nào cũng có thể được xác minh trong vài giây
3. Có thể mở rộng để xác minh: nhiều giải pháp có thể được xác minh đồng thời
4. Tiếng ồn thấp: xác minh có mối tương quan chặt chẽ với chất lượng dung dịch nhất có thể
5. Phần thưởng liên tục: thật dễ dàng để xếp hạng tính tốt của nhiều giải pháp cho một vấn đề duy nhất
Một ví dụ rõ ràng của định luật của người xác minh là thực tế là hầu hết các điểm chuẩn được đề xuất trong AI đều dễ xác minh và cho đến nay đã được giải quyết. Lưu ý rằng hầu như tất cả các tiêu chuẩn phổ biến trong mười năm qua đều phù hợp với tiêu chí #1-4; Các điểm chuẩn không đáp ứng tiêu chí #1-4 sẽ phải vật lộn để trở nên phổ biến.
Tại sao khả năng kiểm chứng lại quan trọng như vậy? Lượng học tập trong AI xảy ra được tối đa hóa khi đáp ứng các tiêu chí trên; Bạn có thể thực hiện rất nhiều bước gradient trong đó mỗi bước có rất nhiều tín hiệu. Tốc độ lặp lại là rất quan trọng — đó là lý do mà tiến bộ trong thế giới kỹ thuật số nhanh hơn nhiều so với tiến bộ trong thế giới thực.
AlphaEvolve của Google là một trong những ví dụ điển hình nhất về việc tận dụng sự bất đối xứng của xác minh. Nó tập trung vào các thiết lập phù hợp với tất cả các tiêu chí trên và đã dẫn đến một số tiến bộ trong toán học và các lĩnh vực khác. Khác với những gì chúng ta đã làm trong AI trong hai thập kỷ qua, đó là một mô hình mới ở chỗ tất cả các vấn đề đều được tối ưu hóa trong một môi trường mà bộ đào tạo tương đương với bộ thử nghiệm.
Sự bất đối xứng của xác minh ở khắp mọi nơi và thật thú vị khi xem xét một thế giới của trí thông minh lởm chởm, nơi bất cứ điều gì chúng ta có thể đo lường sẽ được giải quyết.

882
Hàng đầu
Thứ hạng
Yêu thích