Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
cách để diễn giải điều này là sau khi huấn luyện xong, trọng số của bạn sẽ ở vị trí gần như đều nhau từ tất cả các nhiệm vụ mà nó đã thấy trong quá trình huấn luyện trước (mô hình đã thấy tất cả các nhiệm vụ nên chúng đã kéo nó về phía chúng). vì vậy, tất cả những gì phương pháp này làm là làm biến đổi các trọng số và xem những biến đổi nào đưa mạng gần hơn với các trọng số cụ thể cho nhiệm vụ. nó giống như lora rất rẻ
điều này cũng liên kết với quan sát rằng việc huấn luyện sau không thêm kiến thức, mà chỉ đơn giản là chạm khắc phân phối huấn luyện trước.

23:41 13 thg 3
Chỉ cần thêm tiếng ồn Gaussian vào LLMs (một bước - không có vòng lặp, không có tốc độ học, không có độ dốc) và kết hợp chúng có thể đạt được hiệu suất tương đương hoặc thậm chí tốt hơn so với GRPO/PPO tiêu chuẩn trong các nhiệm vụ lý luận toán học, lập trình, viết lách và hóa học. Chúng tôi gọi thuật toán này là RandOpt.
Để xác minh rằng điều này không giới hạn ở các mô hình cụ thể, chúng tôi đã thử nghiệm nó trên Qwen, Llama, OLMo3 và VLMs.
Điều gì đứng sau điều này? Chúng tôi nhận thấy rằng trong khu vực tìm kiếm Gaussian xung quanh các LLM đã được huấn luyện trước, các chuyên gia nhiệm vụ đa dạng được phân bố dày đặc - một chế độ mà chúng tôi gọi là Neural Thickets.
Bài báo:
Mã:
Trang web:

việc làm biến động trọng số thực sự tương tự như việc triển khai ngẫu nhiên trong nhiệt độ cao. Tôi nghĩ điều này có thể là lặp đi lặp lại (như grpo)
làm biến động trọng số với bán kính lớn -> chọn những người thực hiện tốt hơn -> tiếp tục giảm bán kính
điều này *nên* tăng độ chính xác của nhiệm vụ
@yule_gan bạn đã thử điều này chưa?
27
Hàng đầu
Thứ hạng
Yêu thích
