Ít người biết điều này về điều chỉnh L2: (Gợi ý: nó KHÔNG chỉ là một kỹ thuật điều chỉnh) Hầu hết các mô hình đều có ý định sử dụng Điều chỉnh L2 chỉ cho một mục đích: ↳ Giảm hiện tượng quá khớp. Tuy nhiên, điều chỉnh L2 là một phương thuốc tuyệt vời cho đa cộng tuyến. Đa cộng tuyến xảy ra khi: → Hai (hoặc nhiều) đặc trưng có mối tương quan cao, HOẶC, → Hai (hoặc nhiều) đặc trưng có thể dự đoán một đặc trưng khác. Để hiểu cách mà điều chỉnh L2 giải quyết vấn đề đa cộng tuyến, hãy xem xét một tập dữ liệu với hai đặc trưng và một biến phụ thuộc (y): → featureA → featureB → Có mối tương quan cao với featureA. → y = một tổ hợp tuyến tính nào đó của featureA và featureB. Bỏ qua hằng số, mô hình tuyến tính của chúng ta sẽ có hai tham số (θ₁, θ₂). Mục tiêu là tìm những tham số cụ thể đó để tối thiểu hóa tổng bình phương sai số (RSS). Vậy, chúng ta hãy làm như sau ↓ 1. Chúng ta sẽ vẽ giá trị RSS cho nhiều tổ hợp khác nhau của các tham số (θ₁, θ₂). Điều này sẽ tạo ra một biểu đồ 3D: → trục x → θ₁ → trục y → θ₂ → trục z → giá trị RSS 2. Chúng ta sẽ xác định trực quan tổ hợp (θ₁, θ₂) nào tối thiểu hóa giá trị RSS. Không có hình phạt L2, chúng ta có biểu đồ đầu tiên trong hình dưới đây. Bạn có nhận thấy điều gì không? Biểu đồ 3D có một thung lũng. Có nhiều tổ hợp giá trị tham số (θ₁, θ₂) mà tại đó RSS là tối thiểu. Với hình phạt L2, chúng ta có biểu đồ thứ hai trong hình dưới đây. Bạn có nhận thấy điều gì khác lần này không? Việc sử dụng điều chỉnh L2 đã loại bỏ thung lũng mà chúng ta thấy trước đó. Điều này cung cấp một điểm tối thiểu toàn cục cho lỗi RSS. Và đây là cách mà điều chỉnh L2 đã giúp chúng ta loại bỏ đa cộng tuyến. 👉 Đến lượt bạn: Bạn có biết điều này về điều chỉnh L2 không?
Thực tế, đây là nơi mà "hồi quy ridge" cũng có tên gọi của nó: Việc sử dụng hình phạt L2 loại bỏ RIDGE trong hàm khả năng của một mô hình tuyến tính. Kiểm tra điều này👇
32,1K