Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

cách để diễn giải điều này là sau khi huấn luyện xong, trọng số của bạn sẽ ở vị trí gần như đều nhau từ tất cả các nhiệm vụ mà nó đã thấy trong quá trình huấn luyện trước (mô hình đã thấy tất cả các nhiệm vụ nên chúng đã kéo nó về phía chúng). vì vậy, tất cả những gì phương pháp này làm là làm biến đổi các trọng số và xem những biến đổi nào đưa mạng gần hơn với các trọng số cụ thể cho nhiệm vụ. nó giống như lora rất rẻ điều này cũng liên kết với quan sát rằng việc huấn luyện sau không thêm kiến thức, mà chỉ đơn giản là chạm khắc phân phối huấn luyện trước.

việc làm biến động trọng số thực sự tương tự như việc triển khai ngẫu nhiên trong nhiệt độ cao. Tôi nghĩ điều này có thể là lặp đi lặp lại (như grpo) làm biến động trọng số với bán kính lớn -> chọn những người thực hiện tốt hơn -> tiếp tục giảm bán kính điều này *nên* tăng độ chính xác của nhiệm vụ @yule_gan bạn đã thử điều này chưa?

27

Hàng đầu

Thứ hạng

Yêu thích