Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Điều này thật sự tuyệt vời.
Nó khiến tôi suy nghĩ sâu sắc hơn về RL cá nhân hóa: mục đích thực sự của việc cá nhân hóa một mô hình trong một thế giới mà các mô hình cơ bản có thể trở nên lỗi thời nhanh chóng là gì?
Thực tế trong AI là các mô hình mới được phát hành mỗi vài tuần, mỗi mô hình đều tốt hơn mô hình trước. Và tốc độ này chỉ đang gia tăng, như chúng ta thấy trên Hugging Face Hub. Chúng ta không còn xa lắm đến việc các mô hình cơ bản tốt hơn sẽ được phát hành hàng ngày.
Có một khoảng trống nghiên cứu trong RL mà gần như không ai đang làm việc. Hầu hết các nghiên cứu về cá nhân hóa LLM giả định một mô hình cơ bản cố định, nhưng rất ít người đặt câu hỏi điều gì sẽ xảy ra với sự cá nhân hóa đó khi bạn thay đổi mô hình cơ bản. Hãy nghĩ về việc chuyển từ Llama 3 sang Llama 4. Tất cả các sở thích đã được điều chỉnh, tín hiệu thưởng và LoRAs bỗng nhiên gắn liền với mô hình của ngày hôm qua.
Là một người dùng hoặc một đội, bạn không muốn phải dạy lại mọi mô hình mới sở thích của bạn. Nhưng bạn cũng không muốn bị mắc kẹt với một mô hình cũ chỉ vì nó biết bạn.
Chúng ta có thể gọi điều này là "tính chuyển giao mô hình RL": làm thế nào một dấu vết RL, một tín hiệu thưởng, hoặc một đại diện sở thích được đào tạo trên mô hình N có thể được chưng cất, lưu trữ và tự động áp dụng lại cho mô hình N+1 mà không cần quá nhiều sự tham gia của người dùng? Chúng tôi đã giải quyết điều đó trong SFT, nơi một tập dữ liệu đào tạo có thể được lưu trữ và tái sử dụng để đào tạo một mô hình tương lai. Chúng tôi cũng đã giải quyết một phiên bản của điều đó trong các giai đoạn RLHF bằng cách nào đó nhưng vẫn chưa rõ ràng hơn khi sử dụng RL triển khai trong thế giới thực.
Có một số chủ đề liên quan (RLTR cho các dấu vết lý luận có thể chuyển giao, P-RLHF và PREMIUM cho các đại diện người dùng không phụ thuộc vào mô hình, HCP cho các giao thức sở thích di động) nhưng vòng lặp đầy đủ dường như chưa được nghiên cứu nhiều.
Một số câu hỏi này liên quan đến off-policy nhưng những câu hỏi khác liên quan đến khả năng so với cá nhân hóa: những tùy chỉnh/sửa chữa cũ nào mà mô hình mới đã xử lý sẵn, và những cái nào thực sự là cụ thể cho người dùng/đội để có thể được giải quyết theo mặc định? Điều đó bạn sẽ lưu trữ trong một kỹ năng cho đến bây giờ nhưng RL cho phép mở rộng vượt ra ngoài mức hướng dẫn đã viết.
Chắc chắn tôi đã bỏ lỡ một số công việc nên hãy đăng bất kỳ công việc tốt nào mà bạn đã thấy về chủ đề này trong phần bình luận.
Hàng đầu
Thứ hạng
Yêu thích
