Một câu hỏi phỏng vấn LLM phổ biến: "Giải thích 4 giai đoạn đào tạo LLM từ đầu." (giải thích từng bước bên dưới)
Có 4 giai đoạn chính trong việc xây dựng LLM từ đầu: - Tiền huấn luyện - Tinh chỉnh theo hướng dẫn - Tinh chỉnh theo sở thích - Tinh chỉnh lý luận Hãy cùng tìm hiểu từng giai đoạn nhé! 0️⃣ LLM được khởi tạo ngẫu nhiên Tại thời điểm này, mô hình không biết gì cả. Bạn hỏi nó “LLM là gì?” và nhận được những câu vô nghĩa như “thử tay peter và xin chào 448Sn”. Nó chưa thấy bất kỳ dữ liệu nào và chỉ có những trọng số ngẫu nhiên. 1️⃣ Tiền huấn luyện Giai đoạn này dạy cho LLM những kiến thức cơ bản về ngôn ngữ bằng cách huấn luyện nó trên các tập dữ liệu khổng lồ để dự đoán token tiếp theo. Bằng cách này, nó hấp thụ ngữ pháp, sự thật về thế giới, v.v. Nhưng nó không giỏi trong việc giao tiếp vì khi được nhắc, nó chỉ tiếp tục văn bản. 2️⃣ Tinh chỉnh theo hướng dẫn Để làm cho nó có thể giao tiếp, chúng ta thực hiện Tinh chỉnh theo hướng dẫn bằng cách huấn luyện trên các cặp hướng dẫn-phản hồi. Điều này giúp nó học cách theo dõi các nhắc nhở và định dạng câu trả lời. Bây giờ nó có thể: - Trả lời câu hỏi - Tóm tắt nội dung - Viết mã, v.v. Tại thời điểm này, chúng ta có thể đã: - Sử dụng toàn bộ kho lưu trữ internet thô và kiến thức. - Ngân sách cho dữ liệu phản hồi hướng dẫn được gán nhãn bởi con người. Vậy chúng ta có thể làm gì để cải thiện mô hình hơn nữa? Chúng ta bước vào lãnh thổ của Học Tăng cường (RL). 3️⃣ Tinh chỉnh theo sở thích (PFT) Bạn chắc hẳn đã thấy một màn hình trên ChatGPT hỏi: Bạn thích phản hồi nào hơn? Điều đó không chỉ để lấy phản hồi, mà còn là dữ liệu sở thích của con người có giá trị. OpenAI sử dụng điều này để tinh chỉnh các mô hình của họ bằng cách sử dụng tinh chỉnh theo sở thích. Trong PFT: Người dùng chọn giữa 2 phản hồi để tạo ra dữ liệu sở thích của con người. Một mô hình thưởng sau đó được huấn luyện để dự đoán sở thích của con người, và LLM được cập nhật bằng cách sử dụng RL. Quá trình trên được gọi là RLHF (Học Tăng cường với Phản hồi của Con người), và thuật toán được sử dụng để cập nhật trọng số mô hình được gọi là PPO. Nó dạy LLM cách phù hợp với con người ngay cả khi không có câu trả lời "đúng". Nhưng chúng ta có thể cải thiện LLM hơn nữa. 4️⃣ Tinh chỉnh lý luận Trong các nhiệm vụ lý luận (toán học, logic, v.v.), thường chỉ có một phản hồi đúng và một chuỗi bước xác định để có được câu trả lời. Vì vậy, chúng ta không cần sở thích của con người, và chúng ta có thể sử dụng độ chính xác làm tín hiệu. Các bước: - Mô hình tạo ra một câu trả lời cho một nhắc nhở. - Câu trả lời được so sánh với câu trả lời đúng đã biết. - Dựa trên độ chính xác, chúng ta gán một phần thưởng. Điều này được gọi là Học Tăng cường với Phần thưởng Có thể Xác minh. GRPO của DeepSeek là một kỹ thuật phổ biến. Đó là 4 giai đoạn của việc huấn luyện một LLM từ đầu. - Bắt đầu với một mô hình được khởi tạo ngẫu nhiên. - Tiền huấn luyện nó trên các tập dữ liệu quy mô lớn. - Sử dụng tinh chỉnh theo hướng dẫn để làm cho nó tuân theo các lệnh. - Sử dụng tinh chỉnh theo sở thích & lý luận để làm sắc nét các phản hồi. 👉 Đến lượt bạn: Bạn sẽ cải thiện LLM của mình như thế nào?
12,58K