Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

mọi người đều muốn làm việc về việc phân bổ tín dụng dài hạn nhưng đây là một câu hỏi ngay lập tức + thực tiễn hơn theo ý kiến của tôi: làm thế nào để bạn tối ưu hóa việc tổng hợp nhiều phần thưởng thành một gradient duy nhất? điều này phụ thuộc vào độ nhiễu của phần thưởng như thế nào? công việc rất thú vị :)

rõ ràng là bạn có thể tăng độ chính xác của phần thưởng bằng cách chi nhiều tài nguyên tính toán hơn cho việc chấm điểm. mô hình hiện tại cho điều này là hỏi một thẩm phán một loạt câu hỏi có/không, chuyển đổi thành 0/1, và sau đó… trung bình? ngưỡng? điều này loại bỏ rất nhiều bit mà chúng tôi đã chi tài nguyên tính toán cho.

để có được câu trả lời, chúng ta phải quyết định "tối ưu" là gì — minmax expected judge? average judge? max likelihood của ít nhất K/N 1’s? "phần thưởng" thì tuyệt vời khi nó là bản địa trong miền (điểm, đô la) nhưng đối với RL trong thực tế, nó thường là thứ mà chúng ta chỉ tạo ra cho việc leo đồi.

điều này thật tuyệt, nhưng rất nhiều lý thuyết trò chơi, và tôi không chắc đây là câu chuyện phù hợp nhất cho bối cảnh này (nơi mà tính không chuyển tiếp không thực sự là mối quan tâm). nhưng đây là một câu hỏi xứng đáng được khám phá thêm.

Cách tôi nghĩ về một thiết lập đa tiêu chí "sạch" là chúng ta giả định có N hàm thưởng nhị phân cho một nhiệm vụ, tất cả đều có thể được thỏa mãn bởi một giải pháp hoàn hảo, nhưng các quan sát về phần thưởng của chúng ta thì hơi ồn ào. "Tối đa hóa khả năng xảy ra của một giải pháp hoàn hảo" có lẽ?