Sự đánh đổi giữa độ thiên lệch và phương sai có một chi tiết bị thiếu! Không nhiều kỹ sư ML biết về điều này. Hãy xem xét việc điều chỉnh một mô hình hồi quy đa thức trên một tập dữ liệu giả, chẳng hạn, y=sin(x) + noise. Như được thể hiện trong biểu đồ đầu tiên trong hình, khi chúng ta tăng bậc (m): - Mất mát trong quá trình huấn luyện sẽ giảm xuống còn không. - Mất mát trong kiểm tra (hoặc xác thực) sẽ giảm và sau đó tăng lên. Nhưng hãy chú ý điều gì xảy ra khi chúng ta tiếp tục tăng bậc (m): ↳ Mất mát trong kiểm tra lại giảm (được thể hiện trong biểu đồ thứ hai) Điều này được gọi là "hiện tượng giảm đôi" và thường được quan sát trong các mô hình học sâu. Điều này thật nghịch lý vì nó cho thấy việc tăng độ phức tạp của mô hình có thể cải thiện hiệu suất tổng quát. Theo như tôi biết, đây vẫn là một câu hỏi mở. Không hoàn toàn rõ ràng tại sao các mạng nơ-ron lại thể hiện hành vi này. Có một số lý thuyết xung quanh việc điều chỉnh, tuy nhiên, chẳng hạn như lý thuyết này: Có thể rằng mô hình áp dụng một loại điều chỉnh ngầm nào đó. Kết quả là, nó có thể tập trung chính xác vào một số lượng tham số thích hợp cho việc tổng quát. Thực tế, bạn có thể thử nghiệm điều này: - Tạo một tập dữ liệu giả nhỏ có kích thước n. - Huấn luyện một hồi quy đa thức có bậc m, bắt đầu từ 1 đến một giá trị lớn hơn n. - Vẽ biểu đồ mất mát trong kiểm tra và mất mát trong huấn luyện cho mỗi m. 👉 Đến lượt bạn: Bạn đã nghe về giảm đôi trước đây chưa?
Đây là thời gian chính xác mà Ilya Sutskever nói về nó trong podcast của Lex Fridman:
6,06K