Tôi nhớ khoảng 2.5 năm trước, với @_lewtun và @edwardbeeching và các đồng nghiệp tại @huggingface, việc làm cho DPO hoạt động đúng đã mất vài tháng. Hôm nay, các tác giả mã có thể xây dựng một kho lưu trữ hoàn toàn từ đầu, tham khảo các triển khai chất lượng cao và thảo luận về các sự đánh đổi, và chạy một công việc đào tạo đại diện trên bàn làm việc của bạn. Đây là một mô hình 1B trên hàng ngàn mẫu. Nó thực sự thay đổi khả năng tiếp cận nghiên cứu AI và việc thử nghiệm, cùng với những gì có nghĩa là làm việc trong lĩnh vực AI. Tôi vừa hợp nhất PR cho điều này, thêm một loạt các thuật toán căn chỉnh trực tiếp (DPO v.v.) vào kho mã rlhfbook, và thật đáng kinh ngạc là điều này dễ dàng hơn bao giờ hết. Tôi cảm thấy tự tin hơn về những gì cuốn sách đang trở thành -- một nơi dày đặc cho những trực giác về những gì thực sự hoạt động với các mô hình, không có ảo tưởng và sự phấn khích. Sinh viên có thể sử dụng điều này như một tài liệu tham khảo bên cạnh mã và các thí nghiệm mà các mô hình AI có thể khởi động trong một buổi chiều. Tốt nhất, cuốn sách RLHF sẽ trở thành một nơi trung tâm cho mọi người thảo luận, lặp lại và tạo ra cộng đồng xung quanh tài liệu học tập này.