mọi người đều muốn làm việc về việc phân bổ tín dụng dài hạn nhưng đây là một câu hỏi ngay lập tức + thực tiễn hơn theo ý kiến của tôi: làm thế nào để bạn tối ưu hóa việc tổng hợp nhiều phần thưởng thành một gradient duy nhất? điều này phụ thuộc vào độ nhiễu của phần thưởng như thế nào? công việc rất thú vị :)
Gokul Swamy
Gokul Swamy16 giờ trước
Tôi đã mất vài năm để suy nghĩ sâu sắc, nhưng tôi rất hào hứng khi cuối cùng có thể chia sẻ PROSPER: một thuật toán dựa trên hồi quy tuyệt đẹp cho RL từ *rubric rewards* mà xử lý một cách mạnh mẽ *phản hồi không nhất quán* mà các trọng tài LLM cung cấp. Hãy trở lại với Black(well)! 🧵(1/n)
rõ ràng là bạn có thể tăng độ chính xác của phần thưởng bằng cách chi nhiều tài nguyên tính toán hơn cho việc chấm điểm. mô hình hiện tại cho điều này là hỏi một thẩm phán một loạt câu hỏi có/không, chuyển đổi thành 0/1, và sau đó… trung bình? ngưỡng? điều này loại bỏ rất nhiều bit mà chúng tôi đã chi tài nguyên tính toán cho.
để có được câu trả lời, chúng ta phải quyết định "tối ưu" là gì — minmax expected judge? average judge? max likelihood của ít nhất K/N 1’s? "phần thưởng" thì tuyệt vời khi nó là bản địa trong miền (điểm, đô la) nhưng đối với RL trong thực tế, nó thường là thứ mà chúng ta chỉ tạo ra cho việc leo đồi.
điều này thật tuyệt, nhưng rất nhiều lý thuyết trò chơi, và tôi không chắc đây là câu chuyện phù hợp nhất cho bối cảnh này (nơi mà tính không chuyển tiếp không thực sự là mối quan tâm). nhưng đây là một câu hỏi xứng đáng được khám phá thêm.
Cách tôi nghĩ về một thiết lập đa tiêu chí "sạch" là chúng ta giả định có N hàm thưởng nhị phân cho một nhiệm vụ, tất cả đều có thể được thỏa mãn bởi một giải pháp hoàn hảo, nhưng các quan sát về phần thưởng của chúng ta thì hơi ồn ào. "Tối đa hóa khả năng xảy ra của một giải pháp hoàn hảo" có lẽ?
1,69K