Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tin mới nhất từ blog Nghiên cứu HY của Tencent: Kết nối hạ tầng LLM và phát triển thuật toán. 🚀
Chúng tôi đang mã nguồn mở GradLoc: Một công cụ chẩn đoán hộp trắng theo dõi các đỉnh gradient đến token gây ra chính xác trong O(log N) thời gian.
Mở rộng RLVR không còn phải là một cuộc chiến chống lại các đỉnh gradient "hộp đen". Chuyển từ thử nghiệm và sai lầm theo quy tắc ngẫu nhiên sang chẩn đoán kỹ thuật xác định.
Blog:
GitHub:


🔍 Từ các đỉnh toàn cầu đến các mã thông báo đơn lẻ
Giám sát tiêu chuẩn chỉ cho bạn biết khi nào có một đỉnh gradient xảy ra. GradLoc cho bạn biết ở đâu. Sử dụng tìm kiếm nhị phân phân tán, nó cô lập mã thông báo cụ thể gây ra đỉnh với chi phí phân bổ không đáng kể. Đây là một trình gỡ lỗi "luôn bật" cho việc đào tạo LLM.
💡 Phát hiện Chế độ Sụp đổ Mới
Không phải lúc nào cũng là "dữ liệu bẩn" hay "sự không khớp giữa đào tạo và suy diễn." GradLoc đã tiết lộ Độ không đồng nhất Gradient Theo lớp: Các Token có thể có tỷ lệ Lấy mẫu Quan trọng (IS) "an toàn" nhưng vẫn gây ra sự bùng nổ ở các lớp cụ thể trong khi các lớp khác vẫn ổn định. Việc cắt toàn cầu tiêu chuẩn là một công cụ quá thô cho điều này.
🛡️ Giải pháp: LayerClip
Để giải quyết sự không đồng nhất về gradient theo lớp, chúng tôi đề xuất phương pháp Cắt gradient theo lớp. Thay vì sử dụng một giới hạn toàn cục đồng nhất, LayerClip áp dụng các ràng buộc thích ứng dựa trên thống kê lớp địa phương. Kiểm soát tinh vi này giúp ổn định quá trình đào tạo RLVR nơi mà các phương pháp tiêu chuẩn thất bại.
🚀 Công việc tương lai
RLVR cần cải thiện khả năng quan sát kỹ thuật để hiểu và phân tích sâu hơn. Chúng tôi đang mở mã nguồn GradLoc để giảm bớt rào cản cho việc chẩn đoán chi tiết. Chúng tôi hy vọng điều này sẽ giúp cộng đồng nhìn vào "hộp đen" kỹ thuật và tiến tới tối ưu hóa từ những nguyên tắc cơ bản.
1,88K
Hàng đầu
Thứ hạng
Yêu thích
