Apple vừa chứng minh rằng không cần phải thực hiện các tìm kiếm siêu tham số cho mô hình lớn, vì một lần tìm kiếm mô hình nhỏ là đủ! Bài báo này giới thiệu Complete(d)P, một tham số hóa đào tạo "đúng quy mô" cho phép bạn điều chỉnh các siêu tham số (LR, AdamW, độ suy giảm trọng số, khởi tạo, hệ số dư) trên một mô hình nhỏ và tái sử dụng chúng mà không thay đổi khi mở rộng chiều rộng, chiều sâu, kích thước lô và thời gian đào tạo, thậm chí theo từng mô-đun. Trong các thí nghiệm, các cài đặt được tìm thấy ở 50M chuyển sang các lần chạy lớn hơn ~600 lần, giảm thời gian đào tạo đến cùng một tổn thất khoảng ~2.3 lần ở quy mô nhỏ và mang lại tốc độ tăng ~1.32 lần ở 7.2B.