Một Bậc Thang của Các Hàm Sigmoid Tôi đã tìm hiểu một tài liệu tham khảo sau khi đọc bài viết của Dwarkesh khiến tôi khá lo lắng. Trong bài viết, anh ấy đề cập: "Toby Ord có một bài viết tuyệt vời nơi anh ấy khéo léo kết nối các điểm giữa các biểu đồ chuẩn o-series khác nhau, điều này gợi ý rằng "chúng ta cần một cái gì đó như là một sự gia tăng 1.000.000 lần tổng lượng tính toán RL để tạo ra một cú hích tương tự như mức GPT"." Điều này khiến mọi thứ có vẻ như sẽ dừng lại. Toby đã đi xa đến mức nói hai điều khiến tôi lo lắng: 1. "Chúng ta đã thấy những tiến bộ ấn tượng, nhưng những điều này chỉ khả thi khi bắt đầu từ một nền tảng quá thấp. Chúng ta đã đạt đến điểm mà việc tiến xa hơn trở nên quá tốn kém." 2. "Bây giờ khi việc đào tạo RL đang gần đến giới hạn hiệu quả của nó, có thể chúng ta đã mất khả năng biến nhiều tính toán thành nhiều trí tuệ hơn." Tôi đã hỏi xung quanh về độ hợp pháp của tuyên bố này và trường hợp đối lập cho việc mở rộng RL là gì. Một người bạn tốt nói: "Có, nếu bạn tiếp tục mở rộng tính toán RL một cách ngây thơ, nó sẽ mở rộng kém. Nhưng chúng ta không nên làm như vậy! Đó là lý do tại sao có rất nhiều công ty môi trường RL. Một cách tiếp cận tốt hơn là mở rộng đến những môi trường mới, khó khăn hơn. " Sau khi suy nghĩ một chút, tôi đã tìm ra cách để nén điều này lại thành: "Hình dung nó như một bậc thang là các hàm sigmoid cho các nhiệm vụ, thế giới, mục tiêu mới là cách hữu ích nhất để nghĩ về cách nó có thể tiếp tục trong một thời gian."