Chúa ơi, những cư dân của prime intellect RL đã làm việc chăm chỉ quá Một điểm nghẽn lớn trong việc học liên tục là chúng ta không có cách tổng quát để so sánh và đánh giá các phương pháp trên các miền nhiệm vụ Tôi nghĩ @carnot_cyclist có thể đã giải quyết được điều này
Tôi sẽ không tiết lộ điều đó vì tôi muốn anh ấy viết một bài blog tuyệt vời về nó. Nhưng wow, đó thực sự là một hình thức rất sạch sẽ và chính thức có thể được sử dụng cho rất nhiều thứ khác nhau, và anh ấy có một số kết quả thử nghiệm sớm đẹp để trình bày.
142