Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Giới thiệu Nemotron-Cascade! 🚀
Chúng tôi rất vui mừng thông báo ra mắt Nemotron-Cascade, một gia đình các mô hình lý luận đa năng được đào tạo bằng học tăng cường theo chuỗi, theo miền (Cascade RL), mang lại hiệu suất hàng đầu trong một loạt các tiêu chuẩn.
💻 Cỗ máy lập trình
Sau khi học tăng cường, mô hình 14B của chúng tôi:
• Vượt qua DeepSeek-R1-0528 (671B) trên LiveCodeBench v5/v6/Pro.
• Đạt hiệu suất huy chương bạc tại IOI 2025 🥈.
• Đạt 43.1% pass@1 trên SWE-Bench Verified, và 53.8% với việc mở rộng thời gian kiểm tra.
🧠 Cascade RL là gì?
Thay vì trộn lẫn các lời nhắc không đồng nhất giữa các miền, Cascade RL đào tạo theo chuỗi, từng miền một, điều này giảm bớt độ phức tạp kỹ thuật, giảm thiểu độ trễ xác minh không đồng nhất, và cho phép các chương trình giảng dạy theo miền và điều chỉnh siêu tham số phù hợp.
✨ Thông tin chính
Sử dụng RLHF để căn chỉnh như một bước trước đã tăng cường đáng kể khả năng lý luận phức tạp—vượt xa việc tối ưu hóa sở thích. Các giai đoạn RLVR theo miền tiếp theo hiếm khi làm tổn hại đến hiệu suất tiêu chuẩn đạt được ở các miền trước đó và thậm chí có thể cải thiện nó, như được minh họa trong hình dưới đây.
🤗 Các mô hình & dữ liệu đào tạo 🔥
👉
📄 Báo cáo kỹ thuật với công thức đào tạo và dữ liệu chi tiết
👉

Hàng đầu
Thứ hạng
Yêu thích
