Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

#PaperADay 8 Vượt qua Trung bình Độ dốc trong Tối ưu hóa Song song: Cải thiện Độ bền thông qua Lọc Thỏa thuận Độ dốc Được đề xuất bởi @FrancoisChauba1 sau bài báo hôm qua. Đề xuất Lọc Thỏa thuận Độ dốc (GAF), nơi các độ dốc độc lập có khoảng cách cosine lớn giữa chúng sẽ bị lọc ra thay vì được trung bình vào. Ý nghĩa là một số độ dốc đã tính toán có thể giúp giảm thiểu tổn thất huấn luyện lại có thể gây hại cho khả năng tổng quát, và nên bị loại bỏ thay vì được sử dụng. Điều này được trình bày dưới dạng các micro batch trong huấn luyện phân tán đa GPU, nhưng ý tưởng tương tự nên áp dụng cho các phân vùng của bất kỳ batch huấn luyện nào. Tôi tình cờ vừa thử một cái gì đó tương tự – cắt giảm độ dốc từ các mẫu bộ đệm hồi tiếp IID để chúng không mâu thuẫn với độ dốc từ mẫu trải nghiệm trực tuyến hiện tại. Nó chưa cho thấy kết quả tích cực, nhưng tôi còn một vài góc độ khác để thử. Quan sát thúc đẩy lý thuyết là nếu bạn huấn luyện một bộ phân loại hình ảnh trên tiếng ồn hoàn toàn ngẫu nhiên và nhãn ngẫu nhiên, nó sẽ có độ chính xác huấn luyện 100% và chỉ có độ chính xác xác thực ngẫu nhiên, rõ ràng là quá khớp với dữ liệu huấn luyện. Họ lưu ý rằng nếu bạn nhìn vào độ tương đồng cosine giữa các độ dốc của các minibatch trên mô hình quá khớp này, nó luôn trên 0.99, hoặc về cơ bản là trực giao. Nếu các độ dốc trực giao là dấu hiệu đáng tin cậy của việc quá khớp, có thể bạn có thể bỏ qua các minibatch có độ dốc trực giao và giảm thiểu việc quá khớp / tăng cường khả năng tổng quát. Đối với trường hợp đơn giản nhất của hai microbatch, điều này phụ thuộc vào việc giữ lại hoặc từ chối cả hai dựa trên độ tương đồng cosine, nhưng với nhiều microbatch hơn, họ đề xuất so sánh tất cả các microbatch với cái đầu tiên, và trung bình tất cả những cái vượt qua bài kiểm tra. Một số bình luận về kích thước batch đang mâu thuẫn với luận điểm trong #PaperADay 5 cho rằng các thất bại trong việc mở rộng kích thước batch là do không điều chỉnh beta2, nhưng các lý do không quan trọng bằng hiệu suất thực nghiệm. Tôi có thể sẽ thử một cái gì đó như thế này trong vài ngày tới trên mã nguồn RL của chúng tôi.

Hàng đầu

Thứ hạng

Yêu thích